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DATS HAG MBE 


数据 挖掘 是 一 个 新 兴 的 多 学 科 交叉 领域 ， 它 基于 人 工 智 能 、 机 器 学 习 、 模 式 识别 、 统 计 
学 、 数 据 库 、 可 视 化 等 技术 ， 能 够 从 数据 库 的 大 量 数据 中 揭示 出 隐 含 的 、 先 前 未 知 的 并 有 潜在 
价值 的 信息 ， 目 前 已 广泛 应 用 于 科学 、 工 程 、 商 业 、 医 学 等 领域 。 

本 书 引 在 回 读 者 介绍 数据 挖掘 方法 和 算法 ， 使 读者 能 够 应 用 这 些 方 法 解决 现实 世界 中 的 问 
题 。 本 书 精 心 选 择 了 在 数据 挖掘 领域 中 广泛 使 用 的 大 部 分 方法 ， 并 辅 以 简单 的 例子 ， 因 而 是 学 
习 数 据 挖掘 的 理想 教材 。 





本 书 特色 

© 涵盖 数据 挖掘 中 数据 的 预 处 理 、 分 类 、 预 测 、 聚 类 、 关 联 、 支 持 向 量 机 、 多 维 数 据 可 视 化 
等 内 容 ， 以 及 用 于 这 些 数据 挖掘 问题 的 典型 算法 。 
许多 算法 都 通过 例子 解释 ， 并 辅 以 大 量 图 示 ， 有 利于 初学 者 理解 。 
介绍 如 何 使 用 开源 软件 包 Weka 和 ExcelMiner、GCLUTO 工 具 进行 数据 挖掘 。 在 学 习 理论 
的 同时 ， 配 合 使 用 这 些 数据 挖掘 软件 进行 实验 有 利于 读者 加 深 对 数据 挖掘 理论 和 算法 的 理解 。 
o 介绍 了 一 些 源 自 UCI 机 器 学 习 库 的 数据 集 ， 它 们 已 经 成 为 研究 算法 性 能 的 基准 数据 集 。 


附 市 光盘 包括 
| 大 量 数 据 集 。 
@ 使 用 Weka 和 ExcelMiner 进 行 数 据 挖掘 的 演示 。 
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本 书 全 面 介绍 数 据 控 掘 的 原理 、 方 法 和 算法 。 主 要 内 容 包 括 数据 控 据 的 基本 概念 、 数 据 
挖掘 算法 的 数据 类 型 、 和 输入 和 输出 、 决 策 树 、 数 据 挖掘 的 预 处 理 和 后 处 理 、 关 联 规则 挖掘 、 
分 类 和 回归 算法 、 支 持 向 量 机 、 聚 类 分 析 及 多 维 数据 可 视 化 。 

本 书 讲解 深入 浅 出 ， 并 辅 以 大 量 实例 ， 随 书 光 盘 提 供 了 大 量 数据 集 以 及 两 种 广泛 使 用 的 
数据 挖掘 软件 一 一 weka 和 ExcelMiner， 便 于 读者 理解 数据 挖掘 知识 。 

本 书 适合 作为 高 等 院 校 计算 机 及 相关 专业 数据 挖掘 课程 的 教材 ， 也 可 供 广 大 技术 人 员 
参考 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 幸 出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ,还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
锭 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 演 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

”机械 工业 出 版 社 华 章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹 理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ,还 不 辞 劳 苗 地 担任 了 翻译 和 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 思 今 ,，“ 计 算 机 科学 从 书 ” 已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 经典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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数据 挖掘 是 一 个 新 兴 的 多 学 科 交 叉 领 域 ， 并 且 近 十 余年 一 直 保 持 良 好 的 发 展 势 头 。 当 数据 
的 收集 、 组 织 、 存 储 和 访问 等 基本 问题 解决 之 后 ， 存 储 在 数据 库 中 (更 广泛 地 说 ;存储 在 计算 机 
系统 中 ) 的 数据 迅速 增长 。 人 们 自然 希望 能 够 分 析 、 理 解 存储 在 计算 机 系统 中 的 海量 数据 ， 为 决 
策 提 供 文 持 。 数 据 挖掘 就 是 在 这 样 的 背景 下 产生 的 。 
数据 挖掘 源 于 数据 库 学 科 ,， 最初 被 称 为 数据 库 中 知识 发 现 (KDD)。 后 来 ,数据 挖掘 受到 统 
计 和 学 、 机 顺 学 习 、 模 式 识别 、 可 视 化 计算 等 学 科 的 普遍 关注 ， 并 且 广 泛 用 于 科学 、 工 程 、 商 业 、 
产业 、 医 学 等 诸多 领域 。 数 据 控 掘 的 发 展 也 得 益 于 从 应 用 中 获得 动力 ， 从 众多 学 科 的 长 期 工作 中 
汲取 和 营养。 
目前 ， 市场 上 已 经 有 许多 数据 挖掘 的 教材 和 译 著 。 国 内 许多 高 校 都 在 研究 生 层 次 开设 了 数 
据 挖掘 方面 的 课程 ， 有 些 学 校 甚 至 为 高 年 级 的 本 科 生 开设 了 数据 挖掘 方面 的 选修 课 。 然 而 ， 对 于 
本 科 生 而 言 ， 目 前 已 有 的 数据 挖掘 专著 和 教材 都 比较 深 , 不 太 合适 。 相 比 之 下 ，Soman、Di- 
wakar 和 Ajay 的 这 本 书 更 适合 作为 本 科 生 的 数据 挖掘 课程 教材 。 该 书 有 如 下 特点 : 
o 涵盖 了 数据 挖掘 的 主要 内 容 ， 包括 数 据 的 预 处 理 、 分 类 、 预 测 、 聚 类 、 关 联 和 数据 可 视 化 
等 内 容 ， 以 及 用 于 这 些 数 据 挖掘 问题 的 典型 算法 。 
o 许多 算法 都 通过 例子 解释 ， 并 辅 以 大 量 图 示 ， 有 利于 初学 者 理解 。 
© 许 细 介绍 如 何 使 用 开源 软件 包 Weka 进行 数据 挖掘， 并 简略 介绍 微软 Excel 上 的 数据 挖掘 
工具 ExcelMiner 的 用 法 。 在 课堂 教学 的 同时 ， 配合 使 用 这 些 数据 挖掘 软件 进行 实验 有 助 
于 提高 学 生 的 学 习 兴 趣 ， 加 深 对 数据 挖掘 理论 和 算法 的 理解 。 
© 介绍 一 些 数据 集 。 这 些 数 据 集 取 自 UCI 机 器 学 习 库 ， 已 经 成 为 研究 算法 性 能 的 基准 数据 
集 ， 可 以 用 作 实 验 数 据 集 。 
全 书 共有 12 章 。 范 明 翻 译 了 第 1 ~8 章 ， 牛 常 勇 翻 译 了 第 9~12 章 和 附录 。 在 翻译 的 过 程 
中 ， 我 们 对 原 书 中 明显 的 笔 误 和 印刷 错误 进行 了 更 正 。 
译文 中 的 错误 和 不 当 之 处 ， 敬 请 读者 朋友 指正 。 意 见 和 建议 请 发 往 mfan@ zzu. edu. cn， 我 们 
不 胜 感 激 。 
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在 大 规模 数据 集 快 速 增 长 的 今天 ， 数 据 挖掘 应 成 为 一 个 新 的 学 科 。 我 们 生活 在 这 样 一 个 世 
界 ， 即 便 是 简单 的 日 常任 务 ， 如 打 电 话 、 使 用 信用 卡 或 购买 五 金 电 器 和 杂货 ， 都 会 留 下 电子 印 
记 。 诸 如 核 物理 和 天 体 物 理 领域 科学 实验 数量 的 增加 导致 每 月 可 能 产生 几 PB ( petabytes ) 规模 的 
数据 。 近 来 ， 生 命 科 学 正在 成 为 数据 驱动 的 科学 。 

广泛 用 于 商业 和 上 述 科学 领域 中 的 自动 数据 收集 设备 每 小 时 能 够 产生 几 TB ( terabytes) 规模 
的 数据 ， 致 使 已 有 的 推理 方法 过 时 。 世 界 上 最 大 的 数据 仓库 一 一 Walmart 系统 包含 500 TB 数据 。 
它 实 在 太 大 ， 以 至 于 无 法 装 入 任何 计算 机 的 内 存 。 数 据 挖掘 技术 的 产生 源 自 进行 数据 处 理 业 务 
的 企业 和 进行 数据 处 理 研究 的 科学 家 需要 找到 有 效 的 模式 来 自动 处 理 海量 数据 。 模 式 可 以 是 简 
单 的 数据 汇总 、 数 据 划 分 或 数据 内 部 的 依赖 模型 。 作 为 知识 发 现 过 程 ， 数 据 控 掘 旨 在 从 原始 数据 
得 到 “被 证 实 的 知识 ”。 

认识 到 这 种 新 技术 对 科学 和 商业 的 重要 性 之 后 ,世界 上 大 部 分 大 学 都 开设 了 通用 的 数据 挖 
据 原 理 课程 和 针对 生物 信息 学 、 商 务 智能 、 卫 生 保 健 管理 等 领域 的 数据 挖掘 课程 。 

本 书 旨 在 为 读者 介绍 数据 挖掘 方法 和 算法 ， 使 读者 可 以 使 用 这 些 方法 解决 现实 世界 中 的 问 
题 。 书 中 包含 了 数据 挖掘 领域 广泛 使 用 的 大 部 分 方法 ( 即 印 度 和 美国 顶级 天 学 教学 大 纲 中 所 列 出 
的 方法 ) ， 并 附 以 简单 的 例子 ， 因 而 是 理想 的 课堂 学 习 教 材 。 像 神经 网 络 和 归纳 逻辑 程序 设计 这 
样 的 主题 ， 本 书 没有 包括 在 内 ， 因 为 已 经 有 很 多 好 的 神经 网 络 方面 的 教材 ; 而 对 于 归纳 逻辑 程序 
设计 ， 则 需要 很 好 的 逻辑 程序 设计 方面 的 预备 知识 。 作为 省 略 神经 网 络 内 容 的 补偿 ,我们 增加 了 
一 章 来 介绍 支持 向 量 机 (SVM) SVM 在 数据 挖掘 中 的 使 用 日 益 广泛 。 在 许多 情况 下 ，SVM 的 分 
类 性 能 比 经 监 的 神经 网 络 好 。 

数据 挖掘 方面 的 大 多 数 教材 都 很 关注 理论 ， 对 实际 例子 或 实际 数据 的 关注 度 不 够 。 为 了 弥 
补 这 一 缺点 ， 本 书包 含 了 一 些 解答 例子 和 在 一 些 实际 数据 集 上 进行 数据 挖 据 的 结果 。 随 书 光盘 
中 提供 了 大 量 数据 集 ， 还 介绍 了 如 何 使 用 两 种 最 广泛 应 用 的 软件 : Waikato 大 学 的 Weka 和 美国 
Quantlink 公司 的 ExcelMiner, Weka 作为 开源 代码 提供 ， 而 ExcelMiner 可 以 下 载 、 免 费 使 用 一 个 
月 。 教 材 和 随 书 光盘 中 的 介绍 为 采用 本 书 的 教师 提供 了 足够 的 指导 ， 以 便 教师 在 实验 室 进 行 数 
据 挖掘 实践 。 

为 了 使 得 理论 讲解 更 加 生动 ， 书 中 包含 许多 图 ， 并 且 在 一 些 案例 中 给 出 一 系列 图 ， 用 于 解释 
随 算法 执行 参数 如 何 变化 。 之 所 以 采用 这 种 方法 是 考虑 到 与 工程 领域 的 其 他 学 科 的 学 生 相 比 ， 
计算 机 专业 的 学 生 在 高 等 数学 和 统计 学 方面 的 实践 较 少 。 我 们 希望 读者 通过 本 书 可 以 比较 轻松 
地 理解 数据 挖掘 。 

本 书 共 有 12 章 。 第 1 章 从 数据 挖掘 的 基本 介绍 开始 ， 使 用 了 一 些 取 自 不 同 领域 的 成 功 例子 。 
该 章 旨 在 概述 这 种 新 技术 ， 并 吸引 学 生 进 行 实际 数据 挖掘 项 目 。 该 章 还 给 出 数据 挖掘 过 程 的 大 
致 步骤 ， 并 进一步 解释 数据 挖掘 的 主要 挑战 。 

第 2 章 从 商务 角度 讨论 数据 挖掘 ， 在 此 通常 假定 数据 是 商业 事务 的 结果 。 这 一 章 从 数据 挖掘 
的 历史 和 演化 开始 ， 进 而 讨论 数据 仓库 、 联 机 分 析 处 理 (OLAP) 和 决策 支持 系统 (DSS ) 的 异同 ， 
以 及 它们 最 终 发 展 到 今天 的 数据 挖掘 。 

第 3 章 介 绍 表示 对 象 的 数据 的 类 型 和 格式 。 通 常 ， 我 们 用 一 些 对 象 上 的 观测 /测量 的 特征 来 
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抽象 对 象 ， 而 对 象 集 就 成 为 数据 数组 ( 表 ) 。 特 征 的 选取 和 所 研究 的 问题 有 关 。 大 部 分 数据 挖掘 
算法 采用 这 种 表格 形式 。 该 章 还 进一步 解释 诸如 决策 树 、 聚 类 和 关联 规则 挖掘 等 主要 数据 挖掘 
算法 的 输出 形式 。 

第 4 章 介绍 广泛 使 用 的 数据 挖掘 工具 之 一 一 一 决策 树 构造 。 该 章 将 解释 诸如 ID3(C4.5)、 
CART、CHAID 这 样 的 算法 。 然 后 ， 将 继续 解释 树 剪 枝 的 必要 性 和 方法 ， 以 及 各 种 模型 评估 技 
术 。 该 章 最 后 介绍 关于 代价 敏感 学 习 的 注 记 。 

进行 数据 挖掘 的 人 会 将 90% 的 时 间 用 于 数据 预 处 理 ， 只 将 约 10% 的 时 间 用 于 数据 挖掘 方案 
和 输出 评估 。 第 5 章 将 详细 讨论 预 处 理 的 必要 性 和 预 处 理 的 主要 步骤 。 

. 在 过 去 的 几 年 中 ， 我 们 已 经 开发 了 许多 数据 挖掘 算法 。 为 了 按照 一 定 标准 评估 这 些 算法 ， 可 
以 从 因特网 下 载 一 些 标准 数据 集 。 第 6 章 给 出 其 中 一 些 标 准 数据 集 的 描述 和 某 些 数 据 挖 掘 工具 在 
这 些 数据 集 上 的 输出 。 

天 联 规则 挖掘 是 市 场 营销 研究 领域 广泛 引用 的 数据 挖掘 工具 。 第 7 章 将 用 简单 的 例子 介绍 
.Agrawal 和 Srikant 的 著名 算法 一 一 Apriori 算法 。 

没有 实际 实验 的 数据 挖掘 可 能 相当 枯燥 ， 因 此 ， 第 8 章 将 专门 介绍 使 用 像 Weka 这 样 的 开源 软 
件 包 进行 实际 数据 挖掘 的 方法 。 美 国 的 大 部 分 大 学 都 使 用 这 种 工具 进行 课堂 教学 。 最 近 ， 另 一 种 工 
具 开 始 在 管理 专业 的 学 生 中 流行 ， 这 就 是 ExcelMiner 一 一 一 种 添加 到 微软 Excel 上 的 数据 控 气 工具。 
我 们 也 将 讨论 如 何 使 用 这 种 工具 进行 数据 挖掘 。 本 书 所 附 的 光盘 中 包含 上 述 软件 的 使 用 说 明 。 

第 9 章 将 介绍 一 些 经 典 的 统计 学 技术 如 用 于 分 类 的 朴素 贝 叶 斯 、 最 近邻 回归 方法 。 该 章 还 
包含 一 些 现代 工具 ， 如 遗传 算法 和 数据 挖掘 应 用 的 GMDH 方法 。 

SCF A) BL (SVM) 是 数据 挖掘 领域 最 热门 的 课题 之 一 ， 我 们 专门 用 一 章 的 篇 幅 来 讨论 这 部 
分 内 容 。 在 第 10 章 ， 我 们 从 SVM 的 线性 规划 (LP) 公 式 开 始 ， 简 要 介绍 SVM。 由 于 LP 求解 程 
序 包含 在 微软 的 Excel 中 ,因此 可 以 使 用 它 求 解 SVM。 然 后 ， 我 们 考虑 SVM 的 一 种 变形 ， 称 作 
UE LFF m AL ( Proximal Support Vector Machine，PSVM) ， 它 也 能 用 Excel 求解 。PSVM 的 优点 是 
这 种 非 线 性 版 本 非常 容易 求解 ， 用 6 行 Matlab 代码 就 足以 求解 PSVM。 

第 11 章 将 介绍 另 一 种 主要 的 数据 挖掘 工具 一 一 聚 类 技术 。 我 们 试图 给 出 聚 类 概念 和 算法 的 
非常 简单 和 清晰 的 描述 。 所 涉及 的 算法 包括 层次 聚 类 、k- 均 值 、k- 中 心 点 、DBSCAN、OPTICS.、 
BIRCH、COBWEB、CHAMELEON 和 基于 图 的 技术 。 

第 12 章 是 数据 可 视 化 的 基础 。 多 维 数据 可 视 化 本 身 是 一 个 专门 领域 。 本 章 只 介绍 一 些 基 本 
的 方法 。 

我 们 热切 地 希望 本 书 能 够 使 读者 对 数据 挖掘 这 个 令 人 激动 的 、 迅 速 发 展 的 领域 产生 兴趣 ， 
我 们 希望 得 到 读者 的 指正 、 劝 告 、 建 议和 建设 性 批评 。 





K. P. Soman 
Shyam Diwakar 
V. Ajay 


出 版 者 的 话 
译 者 序 
前 言 
Oe LB... BREEAM. TT cst tar my ] 
1.1 5| vv 1 
1.1.1 数据 挖掘 与 知识 发 现 ………………:. 7 
1.1.2 数据 挖掘 与 数据 分 析 cece cece ee eee 2 
1.1.3 数据 挖掘 与 统计 学 ……………………. 2 
1.1.4 HEEMSE eeens 3 
1.2 KEPER eee 3 
L3 ”数据 挖掘 研究 发 展 的 主要 原因 ……… 9 
1.4 当前 研究 成 果 RN E he a ume ieie 9 
1.5 图 形 模 型 和 层次 概率 表示 eerte 10 
1.6 新 的 应 用 es 和 eee 10 
1.7 影响 数据 挖 握 的 趋势 wee sence cence eee 11 
1.8 研究 挑战 …… To 
1.9 .实验 平台 和 基础 设施 oeesseessesereen ay Ie 
PETG MWR vs 13 
第 2 章 “从 商务 角度 看 数据 挖 据 on. 15 
pA | ro Be cen sssesosososgoosocoesoos 15 
2.2 从 数据 挖掘 工具 到 解决 方案 ……… 16 
2.3 “数据 控 气 系统 的 演变 occ cece eee eee ee 17 
2.4 知识 发 现 过 程 POPE tye a er 18 
2.5 数据 挖掘 支撑 技术 概述 .…………………. 18 
2.5.1 数据 挖 据 : 验证 与 发 现 ………… 19 
2.5.2 决策 支持 系统 19 
二 20 
2.5.4 Mii DSS: nin ye a] 
25.5. MAME oes capi ara ype eneeaes 21 
2.5.6 数据 控 据 过 程 ………………………….…. 22 
2.6 BYPETE TRIGA. myn 24 





参考 文献 25 
第 3 章 ”数据 挖 据 算 法 的 数据 类 型 、 
输入 和 i A E TA 26 
e D S de 26 
3.2 KINIGI asnes asees. ane 26 
3.3 ”特征 (数据 ) 的 不 同类 型 ………………… D7 
3.4 ”概念 学 习 与 概念 描述 ws…………… 28 
3.5 ”数据 挖掘 的 输出 一 一 知识 表示 ，……… 30 
3.5.1. 分 类 学 习 算法 的 知识 输出 ………… 30 
L Mi D 聚 类 学 习 算 法 的 输出 S08 gehen sees 33 
3.5.3 关联 规则 的 输出 ………………………. 36 
3.5.4. 用 于 数值 预测 的 树 的 输出 ………… 36 
3.5.5 基于 实例 的 学 习 和 知识 表示 -…… 38 
BFE PRR oo coe E T T T TA nceese 39 
第 4 章 决策 树 一 一 分 类 和 回归 树 …… 40 
AY GPS rasan ee iintyecs acs ne ep gas 40 
4.2 构造 分 类 树 pp 4? 
4.2.1 用 于 标 称 属性 的 ID3 算法 ……. 42 
ADEI fa BitAls Bw ST Semis 8 ET 43 
4.2.3 构造 树 Digit ems Cambie E E T 9 en.06 44 
AD. A RAS 2) arrn 48 
4,2.5 从 ID3 Bil C4, 5 49 
4.2.6 形象 化 地 理解 ID3 和 C4. 5 
算法 eee 49 
43 EA md da Soe sas os 5] 
4.3.1 . CHAIDH RT Bic rncoceen eee. 52 
4.3.2 CHAID 变量 的 类 型 .………………………， 52 
4.3.3 CHAID 算法 eee ee ence eee ecenee 52 
4.3.4.. CHAID B3FH BR vse eee ee ege ese. 53 
4.3.5 将 CHAID 用 于 气象 数据 ……… 54 
4.3.6 单调 变量 的 预测 子 级 别 合并 …… 56 
4.4 CART( 分 类 和 回归 树 ) OE EETA 57 


4.4.1 CART 使 用 的 不 纯 性 度量 ………… 
4.4.2 Gini 指数 ppp, 
4. 4.3 “使 用 Gini 指数 一 一 一 个 例子 … 
4.4.4” 双 化 指数 
4.4.5 
4.4.6 CART 分 析 的 步骤 
4.5 回归 树 :9 
4.5.1 .回归 树 的 一 个 例子 ………………… 
4.5.2 基于 树 的 回归 …………… 9 
4.5.3 ”最 小 二 乘 方 回归 树 ………………… 
45A LS 回归 树 的 有 效 生 长 人 
4.5.5 连续 变量 上 的 划分 ………………… 
4.5.6 ”离散 变量 上 的 划分 ………………… 
4.5.7 
4.6 具有 未 知 类 值 数 据 的 类 预测 的 


4.7 R L eee kesse. 
i Aig PIU 于 
4.8.1 交叉 确认 : 保持 方法 


后 处 理 
Ae 


ise 
Si 
Si 
= 
= 
3 
= 
S 


I 
sae 
oS 


5.4 WIER, 选择 和 构造 ………………. 
5.4.1 特征 提取 
5.4.2” 特征 选择 .2 
5.4.3 ”特征 构造 vcrcee ees ec eee ec eer eee ees 

5 ”缺失 数据 及 其 处 理 方法 和 技术 oe 
5.5.1 FPA FERRIER oeiee. 
5.5.2 缺失 数据 的 主要 原因 


Nn 


85 


5.5.3 缺失 数据 的 机 制 .…………………… 05 
5.5.4 缺失 数据 的 机 制 一 一 一 个 人 工 
例子 95 
5.6 在 决策 树 归 纳 中 处 理 缺 失 数 据 的 
例子 .pp 97 
5.7 后 处 理 .pe 99 
参考 文献 100 
第 6 章 | a: Se 102 
6.1 引言 ee 102 
6.2 隐形 眼镜 … eee enevee ecw eweues 102 
6.3 ” 蕊 尾 属 植 物 数据 库 …………… eee eee ees 104 
6.4 DRI soso ee cee ese cteecseceees 106 
6.5 工资 数据 库 “pe 109 
6.6 信用 卡 数据 库 。“ ee rene ee cence een e ees 110 
6.7 住宅 数据 库 “pp 9 9 ee 111 
6.8 1985 年 汽车 进口 数据 库 …………………: 114 
6.9 “徽章 人 间 题 .4 117 
6.9.1 HEHA e cece cee ee ence eee ees 117 
6.9.2 ”部 分 数据 118 
第 7 章 关联 规则 挖掘 et 120 
7.1 引言 eereseiiresreeereetersrererrrerets 120 
7.2 事务 数据 库 中 关联 规则 的 自动 
发 现 ceccsececccesececccseueeeeesenseeess 120 
7.3 Apion 算法 123 
7.4 ”缺点 ee 197 
习题 127 
参考 文献 129 
第 8 章 用 开源 和 商业 软件 进行 机 器 
学 J o eee ~ 130 
8.1 用 Weka 进行 机 器 学 习 ceecee cee eee ees 130 
8. 1.1 开始 eee 130 
8. 1.2” 装 人 数据 132 
8.1.3 选择 或 过 泪 属 性 二 六 734 
8.1.4 离散 化 cee cee eee ee tens eeeeeeeeeees 135 
8.1.5 ”关联 规则 控 气 -二 140 
8.1.6 ”分 类 er 142 
8.1.7 聚 类 ee 146 
S 9 XLMINER “see, oie de sss 150 


参考 文献 750 10.5 生成 数据 集 ………” kiits dd ol os 202 
第 9 章 JAME i .- 151 10: 5. 1 DEA ERROS E it ave 
| 10. 5.°2 PEPER A fies ec eee dajo 203 
OL Bi. re nom ny 15] 10. 5.3 .多 元 正 态 分 布 数据 生成 器 …… 204 
9.2 朴素 贝 叶 斯 EE S E ee AE 151 10:6 VEIE A: CI. 206 
9.2.1 has IRRA [A +s 153 可 是 oo 207 
9.2.2 缺失 值 和 数值 属性 ……………… 153 DA y e ee RIAIT EEA s a ds adoha doha 207 
9.3 多 元 回归 分 析 pp 155 
9:3 ee 155 第 11 章 聚 类 分 析 pe 209 
9.3.2 简单 和 多 元 回归 分 析 ……………- 155 ae 209 
9.3.3 在 市 场 营 销 中 的 应 用 .……………… 155 11.1.1... FADE BLE EE ereis 211 
是 155 11.1.2 RAWEKE orreee: 218 
9.3.5 使 用 Excel 进行 多 元 回归 分 析 … 156 人 . 230 
9.3. Os > FRA RIE At tt nnn ee tie toh woffa 156 hs els he Ee A eae OS 233 
9.37 ERE eeens eee ees nscnse 158 i E a a T 234 
9.4 逻辑 斯 详 回 归 pp 160 RS 236 
9.5 E Ap sett A vs 163 11.6 DBSCAN doom. na a a ew, 238 
5004 RS 人 大 165 11.6.1 DBSCAN 算法 的 概念 530 
9.5.2 k-NN 算法 的 缺点 和 165 11.6.2 DBSCAN 的 基本 概念 和 算法 “+ 240 
OG OM a i a ea 166 he ee ey Ae 
OG 1 BIE se edd na tirantan ei 166 11.6.4 DBSCAN 算法 的 优点 
9.6.2 ME DOE NG a ee a a 
9. 6.3 构建 决策 规则 Py aie ge ak 168 11.7.1 引言 Boe wet ee Na Se nah 242 
O04. NORR n 171 人 
9.6.5 DUE ALG cere ee eee eee cree ee eee eee {71 11.7.3 OPTICS 采用 的 概念 ………… 243 
2.7 进化 计算 和 遗传 算法 T E T an 11.7.4 OPTICS 算法 ……… eee eee scenes 243 
9.7.1 进化 理论 ee 172 
Ws Oi (en athe sc a ee eee ee eee 250 
PB cing ohh NORE eae iy 11.7.6 优点 eee 252 
9.7.3 使 用 遗传 算法 进行 机 器 学 习 … 177 
11.7.7 ee ere 252 
动人 178 
DC AR 180 11.8 基于 图 划分 的 聚 类 te Er ae 
Sr D eis 252 
第 10 潮 “支持 向量 机 op 人 oh 182 11.8.2 平衡 图 划分 一 基本 原则 …… 253 
人 182 11.8.3 大 路 划分 pp 256 
10.2 ”线性 支持 向 量 机 的 基本 思想 o 185 11.9 CHAMELEON: 两 阶段 聚 类 
10.3 ， 软 边缘 SVM: 线性 核 ……………… 187 es 256 
10.3.1 线性 SVM 的 线性 规划 公式 iio ee onsen 257 
ed add a 189 11.9.2 秘 相 似 性 建 模 ……………………………… 257 
10. 3.2 有 训练 误差 的 SVM: 非 线 11.9.3 CHAMELEON 的 两 个 阶段 ++ 258 
性 核 pp 190 11.9.4 用 例子 说 明 CHAMELEON 


X 


11.10 COBWEB 概念 聚 类 算法 eb 262 12:2 多 维 可 视 化 的 图 表 表 示 ee oes 294 


11.10. 1 COBWEB 算法 ，…………………. 262 12.2.1 kiviat 图 en. 294 

11. 10:2- COBWEB: ”一 个 简单 12. 2.2 平行 坐标 系 pp 295 

例子 ees. 264 12.2.3 3D FRE cceec cree eee eee cece ees 295 

11. 41- -GCLUTO:. 图 形 化 聚 类 工具 箱 ... 270 i aly ASe > o 曲线 图 Oy ste 296 

ih) Bid 概述 人 271 12.2. 体积 透视 图 a SR A AAR e S 296 

Lt, oD: a a a a 中 的 可 用 选项 ladha 277 122.6 REA ALANEN ON ee E E A 297 

11.11.3 使 用 GCLUTO 进行 文本 12.2.7 Chernoff RA) erete 298 

控 据 ses secesncscvasssccaenenens 283 12.3 TY PRA Hee eee e eee eke eeeeee 298 

“习题 285 参考 文献 i et a ros 
参考 文献 于 29 


第 ]2 章 PERKER eree 292 Pe ee ene eee ++ 300 
12.1 引言 pp 292 WRB ， 图 划分 的 矩阵 形式 .过 304 


Bis 数据 挖掘 


1.1. ale 


计算 机 科学 家 经 常 提 到 摩尔 定律 : 计算 机 的 处 理 速度 大 约 每 18 个 月 翻 一 番 。 但 是 很 少 
有 人 知道 计算 机 的 存储 容量 大 约 每 9 个 月 翻 一 番 [1]” ( Goebel 和 Gruenwald 1999) 。 像 理想 
气体 一 样 ， 计 算 机 的 数据 库 迅速 膨胀 ， 占 满 了 可 用 的 存储 空间 ， 导 致 数据 库 中 的 大 量 数据 成 
为 未 开发 利用 的 资源 。 这 些 数据 就 像 一 个 金 矿 ， 可 以 从 中 提取 信息 。 然 后 ， 利 用 数据 挖掘 技 
术 ， 可 以 将 这 些 信息 转换 成 有 价值 的 知识 。 

很 难说 清楚 有 多 少 存储 在 全 世界 公司 、 学 校 、 政 府 部 门 和 其 他 机 构 的 大 型 数据 库 中 未 使 用 
的 海量 数据 以 及 其 当前 增长 率 。 据 估计 ,美国 国会 图 书馆 存储 的 信息 量 高 达 3PB [2] (Lesk 
1997) 。Lesk [2] 估计 ;全 世界 每 年 大 约 产 生 160TB 信息 。 而 且 ;， 他 估计 已 售 出 的 磁盘 空间 将 
超过 十 万 TB。 很 快 ， 计 算 机 的 数据 存储 容量 将 超过 人 们 使 用 该 数据 存储 和 使 用 其 中 数据 的 能 
力 。 将 海量 数据 转换 为 知识 的 过 程 将 变 得 价值 无 限 。 为 此 ， 在 过 去 的 10 ~ 15 年 中 ， 一 种 称 作 
数据 库 中 知识 发 现 (KDD) 的 过 程 逐 步 发 展 完善 。 数 据 挖掘 算法 就 包含 在 KDD 过 程 中 。 

典型 的 数据 库 用 户 使 用 一 种 界面 通过 诸如 SQL 这 样 的 标准 技术 从 数据 库 中 检索 数据 。 
数据 挖掘 系统 将 这 一 过 程 向 前 推进 一 步 ， 支 持 用 户 从 数据 中 发 现 新 的 知识 [3]( Adriaans 和 
Zantinge 1996) 。 按 照 计算 机 科学 家 的 观点 ， 数 据 挖掘 是 一 个 多 学 科 交 又 领域 。 诸 如 神经 网 
络 、 遗 传 算法 、 回 归 、 统 计 分 析 、 机 器 学 习 和 聚 类 分 析 等 数据 处 理 技术 经 常 出 现在 数据 挖掘 
文献 中 。 许 多 研究 者 认为 数据 挖掘 还 不 是 一 个 完善 的 学 科 ， 数 据 可 扩展 性 、 与 数据 库 系统 的 
兼容 性 ， 以 及 可 用 性 和 准确 性 都 有 待 改进 。 


1.1.1 数据 挖掘 与 知识 发 现 


对 于 数据 挖掘 和 知识 发 现 ， 大 部 分 作者 都 有 不 同 的 定义 。GCoebel 和 Gruenwald[ 1] 将 
KDD 定义 为 识别 数据 中 有 效 的 、 新 颖 的 、 潜 在 有 用 的 和 易于 理解 的 模式 的 非 平凡 过 程 ， 而 
将 数据 挖掘 定义 为 观测 数据 中 的 模式 或 模型 提取 。Berzal 等 [12 |) KDD 定义 为 隐 含 (先前 未 
知 的 ) 信 息 的 大 量 数据 中 潜在 有 几 人 和 信息 的 非 平 几 提 取 。:Goebel Ail Gruenwald 的 KDD 模型 表明 
数据 挖掘 是 如 下 所 示 的 整个 KDD 过 程 的 一 个 步骤 : 

1 ) 确定 和 逐步 理解 应 用 领域 

2) 选 择 所 研究 的 数据 集 。 

3 ) 选择 补充 数据 集 。 集 成 这 些 数据 集 。 

4) 数 据 编 码 、 清 理 重复 和 错误 数据 、 变 换 数据 。 

5 ) 开发 模型 、 构 建 假设 。 

6) 选择 合适 的 数据 挖 据 算法 。 | 

7) 解 释 结 果 。 使 用 合适 的 可 视 化 工具 显示 结果 。 


O “表示 引用 章 后 参考 文献 1。 在 本 书 中 将 统一 用 此 种 方式 表示 对 章 后 参考 文献 的 引用 。 
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8 ) 检验 结果 。 

9) 管 理发 现 的 知识 。 

从 侣 数据 挖掘 只 是 KDD 过 程 的 一 部 分 ， 但 是 数据 挖掘 技术 提供 了 推动 KDD 过 程 的 算 
法 。 前 面 展示 的 KDD 过 程 是 一 个 永 不 休止 的 过 程 。 数 据 挖掘 是 KDD 过 程 的 核心 。 如 果 讨 论 
数据 挖 据 ， 则 应 当 理解 为 讨论 KDD 过 程 。 在 本 书 中 ,我 们 关注 数据 挖掘 算法 。 

Adriaans 和 Zantinge| 3] 强 调 KDD 界 将 术语 数据 挖掘 专 指 KDD 过 程 的 发 现 阶 段 。 他 们 对 
KDD 的 定义 如 下 : KDD 是 数据 中 蕴涵 的 、 先 前 未 知 的 和 潜在 有 用 的 知识 的 非 平凡 提取 。 类 
似 地 ，Berzal 等 [ 12] 将 数据 挖掘 定义 为 一 般 术 语 ， 涵 盖 用 于 从 大 型 数据 库 中 提取 有 用 信息 的 
研究 成 果 、 技 术 和 工具 。Adriaans 和 Zantinge[3] 还 指出 ，KDD 从 专家 系统 、 机 器 学 习 、 统 
计 学 、 可 视 化 和 数据 库 技 术 汲取 营养 。 


1.1.2 数据 挖掘 与 数据 分 析 


Comaford( 计算 国际 公司 ”CEO ， 该 公司 是 一 家 专门 从 事 GUI 设计 和 客户 /服务 器 开发 的 
咨询 公司 ) 指 出 关于 数据 挖掘 有 一 些 误解 。 按 照 Comaford 的 观点 ， 数 据 挖掘 不 同 于 数据 仓库 
或 数据 分 析 s 数据 挖掘 是 一 个 动态 过 程 ， 能 够 比 数据 分 析 更 智能 地 使 用 数据 仓库 。 数据 挖掘 
构建 模型 ， 该 模型 可 以 用 来 进行 预测 ， 而 不 需要 附加 的 SQL 查询 。 数据 挖掘 技术 既 适 用 于 
小 型 数据 集 也 适用 于 超大 型 数据 集 。 我 们 不 仅 要 考虑 数据 集 的 大 小 ， 而 且 必 须 将 适当 的 宽度 
(width) 、 深 度 (depth) 和 体积 ( volume) 作 为 三 个 重要 要 求 加 以 考虑 。 有 效 的 数据 挖掘 需要 数 
据 库 记 录 的 许多 属性 (宽度) 、 大 量 的 数据 库 实体 的 实例 (深度 ) 和 数据 库 设 计 所 确定 的 许多 
实体 (体积 ) 的 记录 。 数 据 挖掘 最 适合 面向 顾客 的 应 用 ， 而 不 是 一 般 的 商务 应 用 。 数据 挖掘 
不 一 定 需 要 人 工 智能 (AI) 。 如 果 数 据 挖掘 算法 使 用 AI， 则 对 用 户 应 当 是 透明 的 。 换 名 话说， 
除 面 向 顾客 的 应 用 之 外 ，Comaford 并 没有 把 数据 挖掘 看 作 一 般 商 务工 具 。 对 于 商业 数据 挖掘 
应 用 ， 这 种 看 法 是 对 的 。 这 种 看 法 强调 用 于 技术 数据 的 数据 挖掘 应 用 需要 、 

关于 宽度 、 深 度 和 体积 ，Adriaans 和 Zantinge | 3 | 的 观点 与 Comaford 不 同 。 按 照 Co- 
maford 的 观点 ， 通 过 将 数据 库 的 感 兴趣 属性 分 散 到 相关 记录 和 集中， 连接 操作 消除 了 对 体积 定 
义 的 需要 。 男 一 方面 ，Adriaans 和 Zantinge 将 数据 挖掘 视 为 多 维 数据 空间 的 探查 。 考 虑 一 个 
具有 一 个 实体 和 100 万 个 记录 的 数据 库 。 如 采 该 数据 库 只 有 一 个 属性 ,, 则 它 只 有 一 个 维 。 假 
设 该 维 的 刻度 从 0 ~ 100, 具有 1/100 的 分 辨 率 。 在 一 维 情况 下 ， 对 于 100 万 个 记录 ， 每 单位 
空间 或 单位 长 度 平均 10000 个 记录 。 对 于 两 个 属性 (两 个 维 ) ， 每 单位 面积 平均 100 Aig ae 
对 于 3 个 属性 ， 每 单位 体积 平均 只 有 一 个 记录 。 为 了 观察 这 个 数 ， 考虑 真空 每 立方 英寸 包含 
一 到 两 个 原子 [4](Elert 2000)。 这 样 ， 具 有 100 万 个 记录 的 3 维 数据 挖 气 空 间 是 一 个 密度 非 
第 低 的 空间 。 进 一 步 ， 如 果 数 据 库 具有 10 个 属性 ， 则 记录 的 密度 为 每 单位 超 休 积 10°" ig 
Ko RAR, MERER AS 3 以 上 ， 即 使 对 于 很 大 的 数据 库 ， 多 维 空间 也 变 得 
相对 很 空 。 因 此 ， 超 空间 中 记录 的 密度 是 选择 数据 挖掘 技术 的 二 个 考虑 因素 。 


1.1.3 数据 挖掘 与 统计 学 


在 20 世纪 上 半 叶 ,统计 学 家 主要 分 析 系 统 规划 的 实验 ， 回 答 完 爹 以 公式 化 方式 表达 的 
科 尝 问题。 这 些 实验 产生 的 高 质量 的 数据 很 少 。 在 这 些 受 控 的 条 件 下 ， 人 们 通常 可 以 得 到 收 
集 和 分 析 数 据 的 最 佳 方法 ， 并 可 以 (数学 地 ) 证 明 这 种 性 质 。 

在 21 世纪 初期 ， 情 况 变 得 有 些 混乱 。 数 据 集 的 规模 发 生 了 变化 。 数 据 沿 两 不 方向 增长 
不 仅 观测 值 越 来 越 多 ， 而 且 变量 也 越 来 越 多 。 通 常 ， 这 些 数据 不 是 直接 被 抽样 的 (为 了 分 
析 ) ， 而 是 其 他 活动 的 副产品 。 这 样 ， 它 们 并 非 源 于 好 的 实验 设计 ,并且 某 些 变量 可 能 并 不 
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包 售 信息 。 因 此， 数据 中 的 “噪声 ” 越 来 越 多 。 

因此 ， 数 据 挖掘 在 许多 方面 都 不 同 于 传统 的 统计 学 : 形式 的 统计 学 推断 是 假设 驱动 的 ， 
即 形成 假定 并 在 数据 上 验证 它 。 相 比 之 下 ， 数 据 挖掘 是 发 现 驱 动 的 ， 即 自动 地 从 数据 中 提取 
借 式 和 假定 。 换 句 话 说 ， 数 据 挖掘 是 数据 驱动 的 ， 而 统计 学 是 人 驱动 的 。 与 数据 挖掘 类 似 的 
统计 学 分 支 是 探测 式 数 据 分 析 ， 尽 管 像 统计 学 其 他 领域 一 样 ， 该 领域 关注 的 数据 集 比 数据 挖 
掘 研究 者 关注 的 数据 集 小 得 多 。 

数据 挖掘 的 目标 也 不 同 于 传统 的 统计 学 a。 有时， 其 目标 是 提取 可 以 容易 转换 成 逻辑 规则 
或 可 视 化 表示 的 定性 模型 。 从 这 个 意义 上 说 ， 数 据 挖掘 是 以 人 为 中 心 的 ， 并 且 时 常 与 人 机 蜀 
面 研 究 结 合 在 一 起 。 


1.1.4 数据 挖掘 与 机 器 学 习 


机 右 学 习 研 究 构建 由 经 验 学 习 的 系统 。 机 器 学 习 算法 旨 在 处 理 一 些 问题 领域 ， 这 些 问 题 
领域 中 没有 好 的 理论 模型 ， 但 可 以 进行 经 验 观 测 ;。 例如; 

1) 和 雪 售 商 想 知道 把 哪个 顾客 群 或 个 人 作为 广告 宣传 对 象 。 

2) Madhuri Dixit 的 狂热 追随 者 想 在 大 型 图 像 数据 库 中 找 出 她 的 所 有 有 照片。 

3 ) 科学 家 想 知道 导致 癌症 在 家 族 中 草 延 的 基因 。 

机 人 学 习 算 法 是 用 于 处 理 这 类 问题 的 计算 机 应 用 的 核心 ， 因 此 它 为 数据 挖掘 提供 了 技术 
基础 (模式 发 现 引擎 ) 。 

此 外 ， 机 器 学 习 范 型 (MLP) “让 数据 决定 模型 "是 统计 学 范 型 “让 数据 拟 合 诸如 逻辑 斯 缔 
回归 这 样 的 预先 确定 的 方程 ” 的 一 种 实际 替代 。 当 数据 很 “小 "时 ， 统 计 学 范 型 仍 是 数据 挖掘 
的 基础 。 将 小 数据 拟 合 为 严格 参数 化 的 、 假 定 的 模型 ， 过 去 是 并 且 现 在 仍然 是 合理 的 选择 。 
然而 ， 电 脑 空 间 需要 一 种 范 型 转换 来 处 理 大 数据 。 


1.2 数据 挖掘 一 一 成 功 的 例子 


1) 贝尔 大 西洋 公司 (Bell Atlantic) [6] : 当 顾 客 向 贝尔 大 西洋 公司 报告 电话 问题 时 ， 该 公 
司 必须 决定 派 什 么 样 的 技术 人 员 去 解决 该 问题 。 从 1991 年 开始 ， 该 公司 使 用 专家 系统 做 此 
决定 。1999 年 ， 该 专家 系统 被 数据 挖掘 创建 的 一 组 规则 取代 。 这 些 学 习 得 到 的 规则 每 年 为 
贝尔 大 西洋 公司 节省 了 1000 多 万 美元 ， 因 为 这 些 规则 减少 了 他 们 做 出 的 错误 决定 。 此 外 ， 
专家 系统 也 已 经 进入 难以 有 效 维护 阶段 。 由 于 学 习 得 到 的 系统 是 通过 在 实例 上 训练 而 得 到 
的 ， 因 此 容易 维护 ， 并 且 容 易 调整 以 适应 不 同 的 地 区 和 开销 的 变化 。 

2) 美 国 万 国宝 通 银行 ( American Express)[7]: 20 世纪 80 年 代 ， 美 国 万 国宝 通 银行 
(UK) 使 用 统计 学 方法 将 贷款 申请 分 成 3 类 : 肯定 接受 的 申请 、 肯 定 拒绝 的 申请 和 需要 专家 
判定 的 申请 。 专 家 预测 申请 者 是 否 会 拖欠 贷款 的 准确 率 只 能 达到 50% 。 机 器 学 习 产 生 的 规 
则 对 这 种 情况 预测 的 准确 率 可 达到 70% ;并 能 立即 投入 使 用 。 

3) 闫 国 石油 公司 (British Petroleum Corporation) [7] : 从 地 下 抽取 出 的 原油 通常 混 有 天 然 
气 ， 并 且 必 须 在 炼油 前 将 二 者 分 离 。 找 到 控制 分 离 过 程 的 理想 参数 是 一 项 复杂 的 任务 。 英 国 
石油 公司 使 用 机 器 学 习 技术 创建 了 一 组 设 定 控制 参数 的 规则 ， 使 得 专家 需要 一 天 多 才能 完成 
的 任务 在 10 分 钟 内 就 能 完成 。 

4)R，R.，Donnelly( 一 家 美国 大 型 印刷 公司 )[8] : 在 四 版 印刷 时 ， 印 刷 滚 简 上 有 时 会 出 
现 四 杭 ， 毁 坏 最 终 产 品 。 当 出 现 这 种 情况 时 ， 必 须 停止 生产 ， 修 理 或 更 换 深 简 ， 然 后 再 重新 
开始 印刷 。 即 便 对 于 专家 ， 条 带 产 生 的 原因 也 尚未 完全 清楚 。R，R: Donnelly 印刷 公司 雇用 
本 一 个 顾 间 ， 就 减少 条 带 问 题 听 取 其 建议 ， 同 时 使 用 机 器 学 习 为 控制 过 程 参 数 ( 例 如 ， 油 黑 
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中 学 习 得 到 的 规则 更 适合 收集 训练 数据 的 工厂 。 
G@) 学 习 得 到 的 规则 更 完整 ， 填 补 了 顾问 建议 的 空白 。 
8) 一 条 与 顾问 建议 相抵 触 的 学 习 得 到 的 规则 被 证 明 是 正确 的 。 | 
学 习 得 到 的 规则 已 经 在 田纳西 的 加 勒 廷 工厂 使 用 了 十 多 年 ， 并 将 条 带 出 现 的 次 数 从 538 
次 (1989 年 ) 降 低 到 26 次 (1998 年 ) 。 
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图 1-1 ,a) 在 称 作 条 带 的 著名 滚 简 印 刷 问题 中 ， 油 墨 条 纹 毁 坏 印 刷 页 面 。b) 决策 树 。 一 标 帮 助 R. 
R. Donnelly 和 Sons 公司 的 印刷 操作 工 确定 何 时 可 能 出 现 条 带 的 决策 树 。 为 了 创建 该 决策 树 ， 计 
算 机 算法 考察 了 500 次 印刷 数据 。 结 果 发 现 ， 预 测 条 带 出 现 的 最 佳 属性 是 电镀 液 中 的 铬 比例 。 
在 后 面 的 节点 ， 算 法 发 现 了 帮助 操作 工 评估 条 带 出 现 风险 的 其 全 属性， 并 相应 地 添加 二 些 分 支 
到 树 上 。 在 某 些 称 作 叶 节点 的 节点 上 ， 不 能 再 划分 分 支 ， 因 为 所 有 的 数据 都 属于 一 个 类 ， 或 者 
因为 没有 其 他 可 用 的 信息 来 准确 预测 出 是 否 有 条 带 。 像 其 他 数据 挖掘 方法 一 样 ， 如 果 没 有 模式 
的 话 ， 决 策 树 不 能 发 现 模式 。 这 里 显示 的 是 包括 177 次 印刷 数据 的 决策 树 的 子 树 。 该 树 表明 ， 
一 个 使 条 带 最 小 化 的 解 可 能 是 高 铬 溶液 比例 、 低 油墨 温度 和 高 油墨 黏度 。 


K VE FE He 5 





5) 飞行 模拟 和 学 习 : 通过 数据 挖掘 学 习 控 制 规则 提供 了 一 种 快速 、 简 便 地 构建 复杂 的 
控制 系统 的 新 方法 。Claude Sammunt 和 Donald Michie[ 5 ] 使 用 飞行 模拟 程序 记录 专家 驾驶 飞 
机 的 动作 。 然 后 ,将 日 志文 件 作为 一 个 称 作 决 策 树 归纳 ( decision tree induction) 的 数据 挖掘 
算法 的 输入 。 归 纳 程序 的 输出 质量 则 通过 运行 自动 驾驶 方式 的 模拟 程序 检验 ， 其 中 自动 驾驶 
程序 代码 由 归纳 程序 产生 的 决策 树 导出 。 图 1-2 显示 了 归纳 程序 产生 的 一 些 规则 。 


thrust_100 





airspeed > 127 : 
airspeed <= 127 : 
|X_feet > 121.33 : thrust _ 30 

uX: feet !<= 121.33 : 

| | elevation <= -43 : 

| |Z feet > -11514.8 : thrust_0 

| |Z feet <= -11514.8 : 

| | climbspeed <= -13 : thrust 0 

| | climbspeed > -13 : 

| | | 2 feet > -18475.8 : thrust 10 
| ob Lie feet <» 284895. 6 

| PAY fest ce 1636 54 : thrust_20 
| | | |¥_feet > 1535.21 : thrust 10 
elevation > -43 : 
| 
igat 
| 

| 
















yY feet <= 638.76 : thrust_25 

Y feet +°638.76 : 

| Z feet <= -26230.1 : thrust_15 
| Z feet > - 26230.1 : thrust_20 





图 1-2 “从 飞行 模拟 和 学 习 软 件 学 习 的 规则 


现在 ， 科 学 家 正在 使 用 这 种 方法 理解 难以 自省 的 亚 认 知 技能 。 例 如 ， 如 果 问 你 如 何 骑 
自行车， 你 可 能 给 出 令 类 满意 的 回答 ， 因为 这 种 技能 是 下 意识 地 学 习 和 实施 的 。 通 过 监 
控 下 意识 的 技能 的 性 能 ,我 们 可 以 用 符号 规则 的 形式 构造 该 技能 的 功能 描述 。 这 不 仅 揭 
示 了 该 技能 的 本 质 ， 而 且 也 可 以 用 作 训 练 的 辅助 支持 ， 因 为 可 以 清楚 地 向 学 员 展 示 他 /她 
正在 做 什么 。 

OJHA F: 用 类 似 的 风格 ，Claire D’ Este, Mark O’ Sullivan 和 Nicholas Hannah| 9 | 
FRAN T PLease A On fa RF J A PER AS LSE: 操作 员 通 过 操纵 杆 控制 机 器 人 的 运动 。 为 
了 监督 学 习 ， 操 纵 杆 命令 被 离散 化 为 有 限 个 类 (如 右 易 、 左 难 )， 用 来 控制 实际 的 机 器 人 为 
操作 员 提供 反馈 ,， 并 记录 此 时 由 机 器 人 接收 到 的 传感器 信息 ( 见 图 1-3) 。 例 如 ， 机 器 人 观察 
到 目标 在 左边 ， 并 且 操 纵 杆 命令 是 “ 左 易 "”。 当 操作 员 操 纵 机 器 人 时 , “离散 命令 ”的 使 用 确 
保 使 用 操纵 杆 可 以 精确 控制 而 不 损害 知识 库 。 由 这 些 数据 创建 的 文件 反馈 给 学 习 算 法 ， 以 传 
感 带 信息 为 输入 特征 ， 实 际 命令 为 期 望 的 输出 分 类 。 符 号 学 习 算法 (C4.5 决策 树 ， 更 多 细节 
见 第 4 章 ) 和 连接 者 学 习 算法 (后 向 传播 神经 网 络 ) 用 来 创建 知识 库 ， 再 用 知识 库 来 控制 机 器 
人 ， 而 不 需要 人 的 干预 。 图 1-3a 显示 了 专家 支持 下 的 规则 产生 ， 而 图 1-3b 显示 了 如 何 使 用 
知识 库 控 制 机 器 人 。 
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输入 特征 


机 器 人 执行 如 





机 和 融 人 执行 器 
图 1-3a) ”进行 机 器 人 学 习 的 规则 产生 图 1-3b) ”用 知识 库 控制 机 器 人 


7) 计 算 机 控制 道路 车 辆 :NavLab( www. navlab. org) 计 算 机 控制 的 车 辆 ( 卡 内 基 梅 隆 大 学 ， 
CMU) 通 过 观察 驾驶 员 学 习 独 立地 在 公路 上 驾驶 。CMU 的 Navlab 小 组 建造 了 许多 计算 机 控 
制 的 车 辆 ， 用 来 研究 自动 和 辅助 驾驶 。 自 1984 年 以 来 ， 他 们 建造 了 一 系列 机 器 人 小 汽车 、 
AERE, SUV 和 公共 汽车 。Navlab 家 族 的 最 新 产品 是 Navlab 11。 这 是 一 种 Wrangler 机 器 
人 吉普 ,装备 有 用 于 短程 和 中 程 障碍 检测 的 各 种 传感器 。 图 1-4 显示 了 Navlab 11。 





图 1-4 Navlab 计算 机 控制 的 车 辆 


8) 学 习 赢 得 十 五 子 棋 游 戏 . TD- Gammon( http : //www. research. ibm. com/ massive/tdl. html ) 
的 十 五 于 棋 游 戏 程序 (Gerald Tesauro/IBM ) 使 用 增强 学 习 ， 通 过 让 玩家 在 大 师 级 难度 级 别 与 自 
CXF 100 多 万 次 ， 来 学 习 玩 十 五 子 棋 游 戏 。 这 是 世界 顶级 的 十 五 子 棋 游 戏 程序 。 

9) 学 习 过 程控 制 : 制造 核燃料 球 的 威 斯 丁 豪 斯 过 程 被 大 量 以 复杂 方式 相互 影响 的 控制 
参数 控制 。 不 正确 的 设置 ， 产 量 和 回报 都 很 低 。 使 用 机 器 学 习 创 建 了 二 组 控制 生产 过 程 的 规 
则 ，1984 年 使 用 以 来 ， 每 年 为 威 斯 丁 豪 斯 增加 1000 多 万 美元 的 生意 额 。 

10) BIL: 试管 婴儿 涉及 从 妇女 卵 和 偶 中 收集 多 个 卵子 ， 与 伴侣 或 捐赠 者 的 精子 授精 
后 产生 多 个 胚胎 。 从 中 选择 某 些 胚胎 ， 植 人 妇女 的 子宫 中 。 在 这 个 过 程 中 ,问题 是 如 何 选择 
“最 好 的 ”胚胎 一 一 最 可 能 存活 的 那些 胚胎 。 选 择 是 基于 胚胎 的 大 约 60 个 特征 做 出 的 ， 包 括 
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刻画 它们 的 形态 卵 母 细胞 、' 卵 泡 和 精子 样本 。 特 征 的 数目 非常 多 ， 胚胎 学 家 很 难 同时 评估 
它们 ， 并 将 历史 数据 与 胚胎 是 否 导致 活 的 婴儿 的 关键 结果 建立 联系 。 在 英格兰 的 一 个 研究 项 
目 中 ， 用 胚胎 和 它们 的 结果 的 历史 记录 作为 训练 数据 ， 使 用 机 器 学 习 研 究 选 择 技 术 。- 

“”“ 11) 养 牛 : 每 年 ， 新 西 兰 奶牛 场 主 必须 做 出 棘手 的 决定 : 哪些 奶牛 留 在 奶牛 场 ， 哪 些 奶 
牛 卖 到 屠宰 场 。 通 常 ， 随 着 饲料 储备 减少 ， 在 产 奶 季节 将 近 结 束 时 ， 奶 牛 场 大 约 淘 汰 1/5 的 
奶牛 。 每 头 奶牛 的 血统 和 产 奶 史 将 影响 这 一 决定 ;其 他 因素 包括 年 龄 (奶牛 的 产 奶 期 在 第 8 
年 将 近 结 束 )、 健 康 问 题 、 难 产 史 、 不 期 望 的 暴躁 脾气 ( 踢 、 跳 栏 ) 、 不 再 怀 小 牛 等 。 对 于 数 
百 万 头 奶牛 ， 每 头 奶 牛 大 约 记 录 700 个 属性 值 。 用 机 器 学 习 来 研究 成 功 的 农场 主 在 做 决定 时 
考虑 哪些 因素 一 一 不 是 为 了 自动 决策 ， 而 是 为 了 将 他 们 的 技能 和 经 验 传授 给 别人 。 机 器 学 习 
是 用 于 从 数据 中 挖掘 知识 的 新 兴 技 术 ， 也 是 一 项 许多 人 都 开始 认真 对 待 的 技术 。 

12 ) 分 子 生 物 学 : 近年 来 ， 我们 见证 了 基因 序列 信息 (包括 整个 基因 组 序列 ) 的 加 速 累 
积 。 这 种 数据 分 析 的 第 一 步 是 识别 每 个 新 的 基因 组 中 数 以 千 计 的 基因 。Glimmer 是 一 个 基于 
机 器 学 习 的 程序 ， 它 能 找 出 基因 组 中 97% ~99% 的 基因 ， 而 不 需要 人 的 干预 。 

13 ) 药物 发 现 | 10]: 为 了 设计 具有 期 望 生 物 活 性 的 新 药 ， 或 为 了 理解 已 知 药物 的 活性 
(或 非 活 性 ， 如 无 毒性 ) 的 机 理 ， 需 要 找到 化 学 结构 与 感 兴趣 的 活性 之 间 的 联系 。 从 试验 数 
据 中 发 现 的 联系 称 作 SAR( Structure Activity Relationship ， 结 构 活 性 联系 ) 。 由 于 具有 复杂 的 
3-D 形状 ， 除 非 最 简单 的 情况 ， 和 否则 人 工 的 SAR 分 析 是 不 可 行 的。 归纳 逻辑 规划 (ILP) 是 一 
种 数据 挖掘 技术 ， 已 证 明 它 对 于 发 现 SAR 特别 有 用 ， 因 为 除了 药物 的 物理 化 学 性 质 之 外 ， 
它 还 能 直接 推断 药物 的 2-D 或 3-D 结构 。ILP 重新 发 现 已 知 的 SAR 和 提出 新 的 SAR 的 专门 
应 用 有 苏 拉 明 衡 生物 、 治 疗 早年 痴呆 (Alaheimers ) 疾病 的 药物 、 二 氢 叶 酸 还 原 酶 和 磷酸 化 本 
抑制 药物 以 及 诱 变性 和 致癌 性 的 毒物 学 模型 。 

” 14) 制 药 [ 10] : 科学 家 和 制药 公司 都 感 兴趣 的 一 项 重要 任务 是 发 现 某 类 和 蛋白质 的 新 成 
员 ， 如 人 类 神经 肽 原 (NPP) 。 为 了 确定 一 种 给 定 的 化 合 物 是 否 是 NPP， 必 须 合 成 它 并 经 过 生 
物 学 测试 。 如 果 可 以 通过 自动 方法 对 可 能 的 NPP 预先 进行 精确 地 过 滤 ; 则 可 以 节省 大 量 的 
时 间 和 人 金钱。 由 于 NPP 的 多 样 性 ， 基 于 序列 相似 性 的 标准 方法 得 到 的 结果 并 不 是 特别 准确 。 
基于 ILP 方法 非常 奏效 。 此 外 ,不 像 标 准 的 过 滤 方 法 ，IEP 产生 的 规则 将 特定 的 生物 学 机 能 
与 NPP 族 相 关联 。 这 些 看 上 去 相当 合理 ;现在 正 被 SmithKline Beecham 的 科学 家 研究 。 

15) 天 文学 [11] : 帕 洛 马 第 二 星空 观测 天 文 台 (POSS- 本 ) 产 生 了 3000 幅 图 像 ， 包 含 数 十 万 
星系 、 恒 星 、 类 星体 和 科学 家 感 兴趣 的 其 他 天 体 。 先 前 观测 的 图 像 中 的 天 体 通 过 肉眼 进行 识别 
和 分 类 。 对 于 POSS- 工 ， 这 种 方法 是 不 可 行 的 ， 因 为 数据 的 绝对 数量 太 大 ， 而 且 要 识别 和 分 类 

的 对 象 太 暗 ， 难 以 通过 肉眼 看 到 。 使 用 机 器 学 习 开 发 了 一 个 完全 自动 的 分 类 系统 ， 即 使 对 于 所 
考察 的 最 暗 的 天 体 ， 准 确 率 也 超过 92% 。 准 确 率 水 平 完全 能 被 使 用 它 的 科学 家 所 接受 。 

16) 医学 [11 ] : 通过 使 用 学 习 技 术 , 分 析 了 旧金山 1991 ~ 1999 年 肺结核 病人 的 数据 ， 
产生 一 个 概率 关系 模型 (PRM) 。 学 习 得 到 的 模型 的 结构 揭示 了 变量 之 间 的 直接 和 间接 依赖 。 
除了 证 实 先前 人 工分 析 已 知 的 依赖 之 外 ， 学 习 得 到 的 模型 还 揭示 了 新 的 联系 ， 值 得 进一步 进 
行 流行 病 学 调查 。 

17) 地 球 物理 学 : 一 篇 出 现在 2 2003 年 7 月 的 美洲 ENIE (American Dailies ) 上 新 闻 报 道 这 样 
Bi: “NASA 的 数据 挖掘 揭示 了 自然 灾害 的 新 历程 。NASA 使 用 卫星 数据 ， 详 细 绘制 了 全 球 过 去 
20 年 自然 灾害 、 人 类 活动 和 地 球 大 气 中 二 氧化 碳 含 量 上 升 的 相互 影响 。 新 的 结果 通过 一 种 称 
作 “ 数 据 挖掘 ”的 技术 得 到 。 数 据 挖掘 对 大 量 卫 星 和 科学 数据 排序 ， 以 检测 其 他 方法 可 能 忽视 的 
模式 和 事件 。 明 尼 苏 达 大 学 、 加 利 福 尼 亚 州立 大 学 和 NASA 艾 姆 斯 的 旨 在 开发 数据 挖掘 技术 ， 


以 帮助 地 球 科学 家 发 现 全 球 碳 循环 和 气候 系统 变化 的 联合 项 目 负 责 人 Kumar 补充 说 。” 

18) 欺诈 检测 : 兄 一 篇 报道 说 ， 美 国政 府 开 始 了 一 项 大 规模 的 数据 挖掘 研究 计划 ， 称 作 
知晓 全 部 信息 (Total Information Awareness, TIA)， 用 于 梳理 人 们 日 常生 活 中 产生 的 大 量 信息 
(WHR, E-mail, BWER, MITH), 寻找 芍 怖 活动 的 警告 模式 。 一 位 数据 挖掘 专 家 
指出 ， 该 项 目的 目标 (在 多 个 数据 库 之 间 发 现 可 疑 模式 ， op are NN 并 保证 个 
人 隐私 的 安全 ) 的 规模 与 “将 人 送 到 月 球 ” 类 似 。 

19) 入 侵 检 测 : 1994 年 6 H, REHA. 彼得 保 的 计算 机 专家 \ Vladimir Leonidovich Levin 
潜入 CitiBank 的 电子 资金 转账 网 络 。 在 其 后 的 5 个 月 中 , 他 将 1000 万 美元 转移 到 加 利 福利 
亚 、 以 色 列 、 人 芬兰、 德国、 荷兰 和 瑞士 的 账户 中 。 他 最 终 被 捕 ， 并 且 大 部 分 资金 被 追 回 ;但 
是 这 次 事件 暴露 了 我 们 的 现代 信息 基础 设施 的 弱点 a 随 着 印度 和 国际 商务 越 来 越 依赖 计算 机 
和 网 络 ， 计算 机 犯罪 的 威胁 也 日 益 增加 。 检 测 和 预防 这 种 入 侵 也 越 来 越 困难 。 系 统管 理 员 和 
安全 官员 必须 监控 大 型 网 络 ; 通常 包括 数 千 台 计算 机 和 数 焰 兆 字 节 存储 空间 ， 其 中 一 台 工 作 
站 上 的 一 次 安全 违例 就 可 能 是 损失 数 百 万 美元 的 事件 。 根 据 计 算 栅 突 发 事件 反应 小 组 (计算 
机 安全 专业 大 员 组 织 ) 的 估计 ， 只 有 5% 受害 站 点 察觉 曾 被 侵入。 尽管 每 台 计 算 机 的 审计 数 
据 记 录 了 检测 大 侵 所 必需 的 原始 信息 ， TEER OST HIS ARON RO CETER 
无 害 的 活动 ), 人 们 无 法 检查 。 

通过 检测 计算 机 使 用 日 志 中 的 异常 模式 ， 数据 挖 据 系统 可 以 为 系统 管理 员 标识 可 疑 事 
件 , 从 而 大 大 减少 他 们 的 负担 。 这 种 系统 监视 单 用 户 的 计算 机 或 账户 ， 并 逐渐 得 到 用 户 典 型 
行为 的 轮廓 曲线 。 它 可 以 根据 与 已 知 或 期 望 模式 的 背离 检测 异常 (可 能 有 害 或 滥用 行为 ) 。 
同时 ， 它 还 必须 足够 灵活 ， 可 以 接受 "正常 "改变 导致 的 差异 。 例 如 ， 由 于 用 户 学 习 使 用 新 
程序 或 承担 新 任务 而 导致 的 行为 变化 。 图 1-5 显示 的 是 普 渡 大 学 开发 的 一 个 这 样 的 系统 轮廓 
曲线 输出 。 RETE E ee Nop dt dt ad acl 
能 代理 如 何 使 用 用 户 的 轮廓 曲线 进行 人 侵 检 测 。 再 
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与 轮廓 曲线 的 相似 性 
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输入 事件 步 


c) 


图 :1-5 - 用 于 入 侵 检 测 的 用 户 轮廓 曲线 
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1.3 数据 挖掘 研究 发 展 的 主要 原因 


在 过 去 的 20 年 中 ， 数 字 化 的 数据 量 正 在 猛 增 ， 而 能 够 分 析 数 据 的 科学 家 、 工程师 和 分 
怕人 员 的 数量 变化 一 直 很 小 。 为 了 弥合 这 种 差距 ,需要 全 新 的 基础 研究 ， 这 些 可 以 分 成 如 下 
主要 问题 : 山 开发 挖掘 大 型 海量 和 多 维 数据 集 的 算法 和 系统 ，@@ 开 发 挖掘 新 的 数据 类 型 的 算 
法 和 系统 。(3) 开 发 挖掘 分 布 式 数据 的 算法 、 协 议和 设施 。@ 提 高 数据 挖 气 系统 使 用 的 简便 
性 。(5) 为 数据 挖掘 开发 合适 的 隐私 和 安全 模型 。 为 了 响应 这 些 挑战 ， 我 们 需要 在 数据 挖掘 和 
知识 发 现 方面 进行 应 用 的 、 多 学 科 的 和 交叉 学 科 的 研究 。 


1.4 当前 研究 成 果 


今天 的 数据 挖掘 建 立 在 各 种 研究 成 果 的 基础 上 ， 其 中 大 部 分 都 是 政府 资助 的 研究 。 在 本 
方 中 ， 我 们 将 提 到 其 中 一 些 较为 重要 的 研究 。 注 意 ， 其 中 一 些 研究 本 质 上 是 交叉 学 科 的 研 
究 ， 基 于 协同 工作 的 、 来 自 不 同学 科 的 研究 者 的 发 现 。 

1 ) 神 经 网 络 : 神经 网 络 是 一 种 受 人 脑 启发 而 产生 的 系统 。 一 个 基本 例子 是 由 输入 节点 、 
往 出 节点 和 称 作 隐 藏 节点 (hidden node) 的 中 间 节 点 组 成 的 后 向 传播 神经 网 络 。 最 初 ， 节 点 
以 随机 权重 相连 接 。 在 训练 期 间 ， 使 用 梯度 下 降 算法 调整 权重 ， 使 得 输出 节点 正确 地 对 提供 
给 输入 节点 的 数据 分 类 。 该 算法 独立 地 被 多 个 研究 小 组 发 明 。 

用 于 分 析 时 ， 训 练 后 的 神经 网 络 可 以 看 作 一 个 信息 分 类 专家 。 一 旦 经 过 训练 ， 它 就 能 对 
感 兴 趣 的 新 情况 的 预测 ， 并 回答 “如 果 …… 将 会 怎么 样 ” 问题 。 训 练 后 的 网 络 被 看 作 一 个 黑 
箱 ， 因 为 它 并 不 提供 结果 的 解释 。 其 他 问题 包括 . 

QD 很 难 结合 用 户 的 干预 。 

@ 由 于 其 迭代 性 质 ， 需 要 超 长 的 学 习 时 间 : 

图 1-6 显示 了 一 个 用 于 癌症 风险 分 类 的 神经 网 络 的 结构 、 输 入 和 输出 ; 

输入 层 


隐藏 层 


男 / 女 


BS > a 





活化 作用 传播 
图 1-6 用 于 癌症 风险 分 类 的 神经 网 络 


2) 支 持 向 量 机 : 支持 向 量 机 是 一 种 新 算法 ， 在 诸如 分 类 、 回 归 和 聚 类 等 应 用 方面 与 神 
经 网 络 有 一 争 。 与 神经 网 络 不 同 ， 它 不 是 黑箱 。 它 的 分 类 和 回归 的 工作 可 以 几何 地 解释 。 支 
持 向 量 机 的 理论 的 发 展 使 得 它 非常 适合 大 规模 数据 挖掘 问题 。 | 
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3 ) 基于 树 的 分 类 方法 : 树 是 一 种 将 大 数据 集 分 割 成 小 数据 集 的 便捷 方式 。 通 过 将 训练 


集 置 于 树 根 ， 并 在 每 个 内 部 节点 提问 ， 通 常 可 天 气 状况 
以 非常 简单 地 分 析 树 叶 上 的 数据 。 例 如 ， 一 个 i x 
预测 信用 卡 交易 是 否 是 欺诈 的 分 类 器 可 以 根据 | 多 去 

前 一 个 小 时 是 否 进行 了 5 次 或 更 少 的 交易 ， 使 ae | 有 风 

用 一 个 内 部 节点 将 训练 数据 集 划 分 成 两 个 集 TAN 3 i 
合 。 经 过 一 系列 这 类 提问 后 ， 每 个 树叶 可 以 通 。“、 \ / 
过 简单 的 多 数 表决 标记 为 欺诈 或 非 欺 诈 。 基 于 ee ee 


树 的 分 类 方法 被 信息 论 、 统 计 学 、 模 式 识别 和 
机 三 学 习 的 研究 者 独立 地 发 明 。 图 1-7 显示 了 一 HM o 


1.5 图 形 模型 和 层次 概率 表示 


有 向 图 是 一 一 种 领域 专家 组 织 条 件 独立 性 和 因果 关系 的 定性 知识 的 好 工具 。 图 形 模型 推广 

了 于 马尔 科 夫 模型 和 隐 马 尔 科 夫 模型 ， 被 证 明 是 一 种 强 有 力 的 建 模 工具 。 研 究 不 确定 性 的 计算 
概率 学 家 和 人 工 智能 研究 者 独立 地 发 明了 图 形 模型 。 

1) RÉRE 3] (ensemble learning): 通常 ， 与 其 使 用 数据 挖掘 建立 单个 预测 模型 ， 还 不 如 
建立 一 组 模型 或 模型 的 系 综 ， 并 且 使 用 一 种 简单 、 有 效 的 投票 策略 将 它们 组 合 起 来 。 这 种 简 
单 的 思想 已 经 应 用 于 广泛 的 背景 和 应 用 。 在 某 些 情况 下 ， 会 认为 这 种 技术 降低 了 预测 方差， 
从 而 降低 了 模型 的 总 体 误差 。 

2) 线 性 代数 : 可 伸缩 的 数据 挖掘 算法 常常 高 度 依赖 于 可 伸缩 的 线性 代数 基本 计算 。 对 
于 从 文本 挖掘 到 网 络 人 侵 检测 等 各 种 数据 控 气 应用， 求解 线性 系统 的 并 行 算法 和 求解 高 维 稀 
踊 线 性 系统 的 算法 的 近期 工作 都 是 非常 重要 的 。 

3) 大 规模 优化 : 某 些 数据 挖掘 算法 常常 可 以 表示 为 大 规模 的 、 非 凸 的 优化 问题 。 最 近 
的 研究 提供 了 求解 大 规模 连续 和 离散 优化 问题 的 并 行 和 分 布 式 方法 ， 包 括 用 于 不 能 直接 求解 
的 大 问题 的 启发 式 搜索 方法 。 

4) 高 性 能 计算 和 通信 : 数据 挖掘 需要 在 大 型 数据 集 上 进行 统计 密集 的 操作 。 没 有 功能 
强大 的 SMP 工作 站 和 支持 诸如 MPI 和 MPIO 等 高 性 能 计算 协议 的 高 性 能 工作 站 集群 ， 这 种 
计算 是 不 现实 的 。 分 布 式 数据 挖 气 需 要 在 地 理 分 散 的 站 点 之 间 传 递 大 量 数据 ， 有 了 广 域 高 性 
能 网 络 ， 这 些 已 经 可 以 做 到 。 - 

5 ) 数 据 库 、 数 据 仓库 和 数字 图 书馆 : 在 数据 挖掘 过 程 中 ， 大 部 分 时 间 用 于 为 数据 挖掘 
准备 数据 。 如 果 数 据 已 经 在 数据 库 、 数 据 仓库 和 数字 图 书馆 中 ， 则 该 步骤 可 以 简化 ， 尽 管 涉 
及 不 同 数据 库 的 数据 挖掘 仍然 是 一 种 挑战 。 某 些 算法 ， 如 关联 算法 ， 紧 紧 与 数据 库 连接 在 一 
起 ， 而 一 些 正 在 未 来 的 数据 仓库 中 构建 的 原始 操作 将 被 证 明 对 于 某 些 数据 控 掘 应 用 是 有 
用 的 。 

6) 大 型 数据 集 的 可 视 化 : 通常 由 复杂 的 模拟 程序 产生 的 大 型 数据 集 ， 需 要 图 形 可 视 化 
方法 以 便 更 好 地 理解 。 多 尺度 (multi-scale) 可 视 化 的 最 新 进展 使 得 透视 图 可 以 快速 和 并 行 完 
成 ， 使 得 这 些 可 视 化 任务 切实 可 行 。 


1.6 新 的 应 用 


数据 控 掘 学 科 在 一 定 程度 上 是 直 新 的 应 用 驱动 的 。 这 些 应 用 需要 新 的 、 不 能 被 今天 的 技 
术 所 文 持 能 力 。 这 些 新 应 用 可 以 分 成 三 大 类 。 | 
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1) 商业 和 电子 商务 数据 。 企业 资源 规划 系统 (back-office) 、 客户 关系 管理 系统 (front- of- 
fice) 和 网 络 应 用 产生 了 大 量 关于 商务 过 程 的 数据 。 使 用 这 些 数 据 进行 有 效 的 决策 仍然 是 一 项 
根本 挑战 。 

2) 科 学 、 工 程 和 卫生 保健 数据 。 科 学 数据 和 元 数据 在 结构 上 通常 比 商务 数据 更 复杂 。 
此 外 ， 科 学 家 和 工程 师 越 来 越 多 地 使 用 模拟 和 具有 领域 知识 的 系统 。 

3) Web 数据 。Web 上 的 数据 不 仅 数量 在 增长 ， 而 且 复 杂 性 也 在 增长 ,现在 ,Web 数据 
不 仅 包 括 文本 和 图 像 ， 而 且 包 括 流 数据 和 数值 数据 。 

在 本 节 中 ， 我 们 将 介绍 每 二 类 的 一 些 应 用 。 

1 ) 商 业 交易 : SR, 商业 机 构 正 在 合并 ， BRL REM LMR EH 
亿 的 顾客 交易 。 他 们 需要 知道 风险 (该 交易 是 否 是 欺诈 ? 该 顾客 是 否 为 他 的 账单 付费 ?) 和 机 
过 。( 该 顾客 的 预期 利润 是 多 少 ? 该 顾客 下 次 最 可 能 购买 的 产品 是 什么 ?) 

2) 电 子 商务 : 电子 商务 不 仅 产生 对 于 分 析 销 售 模式 和 风险 模式 的 至 关 重 要 的 大 型 数据 
集 ， 而 且 与 上 面 提 到 的 一 些 应 用 不 同 ， 为 了 满足 在 线 交易 的 需要 ， 实 时 或 接近 实时 地 进行 这 
些 分 析 也 很 重要 。 

3) 基因 组 数据 : 基因 组 排序 和 绘制 工作 已 经 产生 了 大 量 数据 库 ， 这 些 数据 库 可 以 通过 
Web 访问 。 此 外 ， 还 有 形形色色 的 其 他 联机 数据 库 ， 包 括 关 于 疾病 : 细胞 功能 和 药物 信息 
的 数据 库 。 安 现 这 些 数据 源 之 间 的 联系 (大 部 分 尚未 考察 ) 是 数据 挖掘 的 男 =- 项 根本 挑战 
RU, 已 经 开发 了 比较 整个 基因 组 的 可 伸缩 技术 。 

4) 传 感 器 数据 : 卫星 、 浮 标 、 气球 和 其 他 各 种 传感器 产生 了 数量 庞大 的 关于 地 球 大 气 、 
海洋 和 陆地 的 数据 。 一 项 根本 挑战 是 理解 这 些 数据 之 间 的 关系 ， 包 括 因果 关系 。 例 如 ， 工业 
污染 对 全 球 变 暖 是 否 有 影 学 高 
能 物理 和 核 物 理 等 其 他 学 科 的 传感器 和 设备 产生 。 

5) 模拟 数据 : 现在 ， 除 理论 和 实验 外 ， 模拟 已 被 作为 第 三 种 科学 形态 。 今 天 ,不 仅 实 
验 会 产生 大 量 数 据 集 ， 模 拟 也 会 产生 大 量 数据 集 。 数 据 挖掘 (更 二 般 地 ， 数据 密集 的 计算 ) 
锌 证 明 是 理论 模拟 和 实验 之 间 的 重要 环节 。 

6) 卫 生 保 健 : 多 年 来 ,卫生 保健 一 直 是 美国 CDP 增长 最 快 的 部 分 。 医 院 、 卫 生 保 健 组 
织 、 保 险 公 司 和 联邦 政府 拥有 大 量 关 于 上 患者、 他 们 的 卫生 保健 问题 、 临 床 治疗 过 程 、 他 们 的 
费用 和 结果 的 数据 。 理 解 这 些 数据 之 间 的 联系 对 于 许多 问题 都 是 至 关 重 要 的 ,这些 问题 涉及 
从 确定 何 种 治疗 过 程 和 临床 方案 最 有 效 ， 到 如 何在 资源 减少 的 年 代 最 好 地 为 大 多 数 人 提供 卫 
生 保 健 。 

7) 多 媒体 文档 : 没有 多 少 人 满意 今天 的 Web 文档 检索 技术 ， 但 是 文档 的 数量 和 访问 这 
择 文 梢 的 人 数 一 直 在 急剧 增加 。 此 外 ， 存 储 包 括 音频 、 图 像 和 视频 数据 在 内 的 多 媒体 数据 正 
变 得 越 来 越 容易 ， 但 是 随 着 文档 量 的 增加 ， 从 文档 中 提取 有 意义 的 信息 正 变 得 越 来 越 困 难 - 

8) 数 据 Web: SK, Web 主要 面向 文档 和 它 的 多 媒体 扩展 。 研 究 表 明 ; HTML 是 支持 
它 的 简单 、 但 功能 强大 的 语言 。 未 来 ，Web 可 能 对 于 数据 也 一 样 重要 。 可 扩展 的 标记 语言 
(Extensible Markup Language, XML) 是 一 种 新 兴 的 网 络 环境 下 处 理 数据 的 语言 。 随 着 这 种 其 
础 设施 的 成 熟 ， 对 于 新 兴 的 数据 Web, 数据 挖掘 可 望 成 为 一 种 至 关 重 要 的 可 行 技术 。 


1.7 影响 数据 挖掘 的 趋势 


本 节 介 绍 五 种 可 能 对 数据 挖 气 具 有 重要 影响 的 发 展 趋势 。 i 
站 数据 发 展 趋势 : 或 许 ， 最 重要 的 发 展 趋势 是 过 去 20 年 来 数字 数据 的 爆炸 式 增长 。 在 
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此 期 间 ， 数据 量 可 能 已 经 增加 了 56 ~ 10 个 数量 级 。 大 部 分 数据 都 可 以 通过 网 络 访问 。 另 一 方 
面 ， 与 此 同时 ， 可 以 分 析 这 些 数据 的 科学 家 、 工 程 师 和 其 他 分 析 大 员 的 数量 保持 相对 稳定 。 
例如 ， 在 此 期 间 ， 每 年 毕业 的 统计 学 博士 数量 保持 相对 稳定 。 唯 一 可 能 的 结论 是 : 

要么 大 部 分 数据 注定 是 只 写 的 ， 要 么 必须 开发 像 数据 挖掘 这 样 的 技术 ， 可 以 (部 分 ) 自 
动 地 分 析 这 些 数据 ,过滤 不 相关 的 信息 ， 并 提取 有 意义 的 知识 。 

2) 硬 件 发 展 趋势 : 数据 挖 据 需 要 在 大 型 数据 集 上 进行 数值 和 统计 密集 的 计算 。 工 作 站 
内 存 的 增加 和 处 理 速 度 的 提高 使 得 可 以 使 用 当前 的 算法 和 技术 挖掘 几 年 前 因为 太 大 而 无 法 挖 
气 的 数据 集 。 此 外 ，SMP 工作 站 和 高 性 能 工作 站 集群 的 高 性 能 计算 的 装备 使 得 我 们 可 以 着 
手 解决 几 年 前 只 能 由 最 大 的 超级 计算 机 才能 处 理 的 数据 挖掘 问 题 。 

3) 网 络 发 展 趋势 : 下 一 代 因 特 网 (NGI) 将 以 0C-3(155MBps ) 或 更 快 的 速度 连接 站 点 。 
这 比 当 前 网 络 提供 的 连接 快 100 倍 。 有 了 这 种 连接 ,使 用 当前 的 算法 和 技术 处 理 分 布 式 数 据 
集 将 成 为 可 能 。 HOA, 过 正在 开发 新 的 协议 ”算法 和 语言 以便 使 用 当前 和 下 专 代 网 络 进行 
分 布 式 数 据 挖掘 。 

4) 科 学 计算 发 展 趋势 : 正如 前 面 所 提 到 的 ， 今天 的 科学 家 和 工程 师 将 模拟 看 作 -- 二 种 科 
学 形态 。 数 据 挖 掘 和 知识 发 现在 联系 理论 、 实 验 和 模拟 这 三 种 科学 形态 中 扮演 本 重要 角色 ， 
特别 是 当 实验 或 模拟 导致 大 型 数据 集 时 尤其 如 此 ， 

5) 商 业 发 展 趋势 : 与 以 前 相 比 ， 今 天 的 商业 活动 必须 获得 更 大 利润 、 具 有 更 快 的 反应 、 
提供 更 高 质量 的 服务 ， 并 且 使 用 更 少 的 人 员 、 更 低 的 成 本 。 在 这 些 期 望 和 约束 下 ,数据 挖掘 
成 为 一 种 基本 技术 ， ea fips olen angle tance 


1.8 GRR 


在 本 节 中 ， 我 们 介绍 三 个 研讨 会 提出 的 一 些 研究 挑战 。 这 些 研究 挑战 分 成 五 大 领域 
中 提高 数据 挖掘 算法 的 可 伸缩 性 ，@ 挖 气 非 向 量 数据 ，@) 挖 掘 分 布 式 数据 ， 加 提高 数据 挖掘 
系统 和 环境 的 易 用 性 ，@) 数 据 挖掘 的 隐私 和 安全 问题 。 

1 ) 数 据 挖掘 算法 的 可 伸缩 性 : 今天 的 大 部 分 数据 挖掘 算法 都 假定 数据 可 以 放 在 内 存 中 。 
尽管 常常 声称 成 功 地 用 于 大 型 数据 集 ， 但 是 这 些 通常 只 是 对 大 数据 集 抽样 ， 直 到 数据 集 可 以 
放 在 内 存 中 为 止 。 基 本 挑战 是 使 数据 挖掘 算法 具有 可 伸缩 性 ， 原 因 是 

© 记录 或 观测 数据 的 增加 。 

© 每 个 观测 数据 的 属性 数目 增加 。 

© 用 于 分 析 观 测 数据 集 的 预测 模型 或 规则 集 的 数目 增加 。 

© 交互 和 实时 响应 要 求 的 增加 。 

不 仅 需要 开发 当前 数据 挖掘 算法 的 分 布 式 、 并 行 和 非 内 存 版 本 ; 而 且 需 要 开发 真正 的 新 
算法 。 例 如 ， 今 天 的 关联 规则 挖掘 算法 可 以 用 一 、 两 遍 扫 描 分 析 非 内 存 数 据 ， 而 只 需要 在 内 
存 中 保留 二 些 辅助 数据 。 

2) 扩 展 数据 挖掘 算法 到 新 的 数据 类 型 : 今天 ， 大 部 分 数据 挖掘 算法 在 向 量 值 数 据 上 运 
行 。 一 个 重要 的 挑战 是 扩展 数据 挖掘 算法 使 之 在 其 他 数据 类 型 上 运行 ， 包括 时 间 序 列 和 过 
程 数 据 ; @ 非 结构 数据 ， 如 文本 ; @ 半 结构 化 数据 ， 如 HTML 和 XML 文档 ; OSA AID 
ARH; @ 层 次 和 多 标 度 数据 ; @ 集 合 值 数 据 。 | 

3) 开 发 分 布 式 数 据 挖掘 算法 : 今天 ， 大 部 分 数据 挖掘 算法 需要 将 所 有 待 挖掘 的 数据 集 
中 到 单个 、 集 中 的 数据 仓库 中 。 二 个 基本 挑战 是 开发 数据 控 掘 算法 的 分 布 式 版 本 ,使 得 数据 
挖掘 可 以 分 布地 进行 ,而 让 某 些 数据 留 在 原 地 。 此外， 为 了 挖掘 分 布 式 数据 需要 合适 的 协 
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议 、 语 言 和 网 络 服 务 来 处 理 挖掘 分 布 式 数据 所 需要 的 元 数据 和 映射 。 随 着 无 线 计算 和 普 适 计 
算 环 境 越 来 越 普遍 ， 还 必须 开发 挖掘 这 些 类 型 的 系统 所 产生 的 数据 的 算法 和 系统 5 

4) 易于 使 用 : 今天 的 数据 抗 握 最 多 是 一 个 半自动 的 过 程 ， 并 且 今 后 也 许 仍 然 如 此 。 另 
一 方面 ， 一 个 基本 挑战 是 开发 即便 对 于 偶然 用 户 也 比较 容易 使 用 数据 挖 握 系 统 。 相 关 技术 包 
括 改进 用 户 界 面 ， 支 持 大 型 分 布 式 数据 集 的 偶然 浏览 和 可 视 化 ， 开 发 管理 数据 挖掘 所 需要 的 
元 数据 的 技术 和 系统 ， 开 发 合适 的 语言 和 协议 提供 对 数据 的 偶然 访问 。 此 外 ， 另 一 个 重要 的 
基本 挑战 是 开发 数据 挖掘 和 知识 发 现 环境 ， 处 理 数据 收集 、 处 理 、 挖掘 和 可 视 化 过 程 ， 以 及 
处 理 数据 和 导出 信息 所 需要 的 协同 和 报告 

5) 隐私 和 安全 # 数据 控 气 是 从 数据 中 提取 有 用 信息 的 有 力 工具 ， 随 着 可 用 的 数字 数据 
的 增加 ， 数 据 挖掘 滥用 的 可 能 性 也 在 增长 。 一 个 基本 挑战 是 为 数据 挖掘 开发 隐私 和 安全 模型 
以 及 合适 的 协议 ， 并 确保 下 一 代数 据 挖掘 系统 完全 使 用 这 些 模型 和 协议 进行 设计 。 


1.9 实验 平台 和 基础 设施 


实验 研究 在 推动 数据 挖掘 领域 向 前 发 展 的 过 程 中 起 着 至 关 重 要 的 作用 。 为 高 性 能 和 分 布 
式 数 据 挖掘 开发 的 实验 平台 对 于 推动 该 领域 的 进展 是 至 关 重 要 的 。 

数据 挖 所 对 实验 平台 的 要 求 不 同 于 通用 的 高 性 能 计算 平台 。 例 如 ， 数 据 挖掘 实验 平台 既 
是 面向 处 理 机 的 ， 也 是 面向 磁盘 的 ; 网 络 资源 必须 以 确保 质量 的 服务 在 地 理 分 布 的 站 点 之 间 
移动 数据 集 和 数据 元 素 ; 必须 有 各 种 通用 和 专用 的 数据 挖掘 软件 。 

或 许 ， 创建 数据 挖 所 实验 阅 合 和 国家 级 数据 挖 据 资 源 的 两 个 最 大 的 挑 成 是 : (DD 收集 合适 
的 数据 集 ，@) 需 要 交叉 学 科 和 多 学 科 团 队 。 
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第 2 章 ”从 商务 角度 看 数据 挖掘 


2.1 SIE 


信息 技术 发 展 的 一 个 新 的 重要 趋势 是 识别 信息 系统 中 有 意义 的 数据 。 这 种 知识 的 获得 可 
能 是 在 业界 获得 竞争 优势 的 关键 。 这 就 需要 工具 ， 以 便 对 这 些 数据 进行 分 析 和 建 模 。 数 据 挖 
掘 的 价值 在 于 主动 搜寻 产业 发 展 趋 势 ， 并 将 这 种 理解 提供 给 维护 大 量 信息 的 组 织 机 构 。 这 
样 ， 商 务 机 构 的 数据 挖掘 目标 主要 是 改善 组 织 机 构 与 它们 的 顾客 之 间 沟 通 的 质量 。 

在 早期 ， 由 于 已 有 的 信息 系统 缺乏 存储 和 分 析 数 据 的 能 力 ， 公 司 处 于 不 利 地 位 。 然 而 ， 
从 过 去 和 现在 的 数据 中 提取 模式 并 预测 未 来 的 科学 技术 今天 已 经 成 熟 ， 并 且 能 够 为 组 织 机 构 
的 各 个 部 门 提供 极为 重要 的 信息 。 对 于 某 些 公司 ， 数 据 挖掘 意味 在 人 的 控制 下 ， 使 用 算法 从 
数据 中 提取 模式 。 大 规模 的 自动 搜索 和 对 发 现 规律 的 解释 属于 数据 库 中 知识 发 现 (KDD ) 的 
范畴 。KDD 关注 应 用 于 数据 库 的 知识 发 现 过 程 。KDD 处 理 存 在 于 所 有 的 科学 领域 和 诸如 营 
销 、 规 划 和 控制 等 应 用 领域 的 已 有 数据 。 通 常 ，KDD 必须 处 理 不 确定 的 数据 、 含 噪声 的 数 
据 和 稀疏 的 数据 。 这 样 ，KDD 是 指 从 数据 中 发 现 有 用 知识 的 整个 过 程 ， 而 数据 挖掘 是 指 从 
数据 中 提 到 模式 的 算法 应 用 。 然 而 ，KDD 和 数据 挖掘 差别 正在 逐渐 消失 ， 因 此 本 书 将 互 换 
地 使 用 这 些 术语 。 

如 果 正 确 地 进行 ， 数 据 挖掘 可 以 为 组 织 机 构 提 供 一 种 优化 其 商务 数据 处 理 的 方法 。 当 
前 ， 新 的 数据 挖掘 公司 正在 迅速 涌现 ， 以 应 对 提供 这 种 服务 的 挑战 。 尽 管 数据 挖掘 改善 了 使 
用 数据 挖掘 的 商务 组 织 与 其 顾客 之 间 的 沟通 ， 但 是 还 有 许多 数据 控 掘 公司 正在 试图 纵向 联合 
从 生产 到 销售 的 各 个 阶段 ， 为 广阔 的 市 场 提供 最 好 的 服务 。 这 件 事 正在 通过 关注 特定 的 行 
业 ， 并 试图 理解 该 行业 的 公司 所 收集 的 信息 类 型 进行 着 。 这 样 ， 数 据 挖掘 是 从 大 型 数据 库 中 
提取 有 效 的 、 先 前 未 知 的 信息 ， 并 使 用 它 制定 至 关 重 要 的 商务 决策 的 过 程 。 大 型 复杂 数据 集 
的 数据 挖掘 或 探索 式 数据 分 析 结 合 了 统计 学 和 机 器 学 习 的 知识 和 研究 成 果 , 以 便 在 超大 型 数 
据 库 中 发 现 新 知识 。 | | 

在 过 去 的 30 年 中 , 泪 益 增 长 的 大 量 关 键 商 务 数 据 已 经 以 电子 方式 存储 ， 并 且 数 据 量 将 
继续 增长 。 尽 管 收集 的 商务 数据 量 不 断 增长 ,但 是 数据 的 价值 很 少 被 完全 利用 。 这 是 因为 完 
全 分 析 这 些 数据 并 洞悉 可 能 出 现 的 模式 是 一 项 困难 的 任务 。 下面 给 出 一 个 数据 挖掘 试图 解决 
的 这 种 困难 问题 的 一 个 例子 号 像 活 尔 玛 这 样 的 零售 公司 收集 了 每 位 购买 者 的 大 量 信息 。 假 设 
沃尔玛 想 研 究 库存 管理 问题 。 对 于 销售 数 以 百 万 计 商 品 的 大 客户 ， 预 测 最 优 库存 不 是 一 件 容 
易 的 事 。 有 许多 子 问题 都 非常 复杂 ， 需 要 大 量 时 间 来 解决 。 一 个 这 样 的 子 问题 是 理解 沃尔玛 
的 顾客 和 预测 顾客 的 爱好 。 在 这 个 例子 中 ， 可 以 使 用 数据 挖掘 工具 洞察 顾客 的 行为 模式 ， 帮 
助 沃尔玛 保持 合适 的 库存 量 。 由 于 一 个 公司 可 能 保有 数 十 亿 或 数 兆 兆 字 节 数据 ， 数 据 挖掘 可 
以 探查 这 些 数据 ， 挑 选 出 所 有 重要 信息 ,并 将 它 提供 给 .CEO， 以 便 他 更 好 地 理解 顾客 的 交 
易 结构 。 | 

商务 数据 挖掘 的 演变 概括 在 表 2-1 中 。 数据 挖掘 技术 是 长 期 研究 和 产品 开发 过 程 的 产 
物 。 这 种 演变 始 于 商务 数据 第 一 次 存 人 计算 机 ,不断 改进 数据 访问 ; 如 最 近 产生 了 人 允许 用 户 


16 B2E 


实时 地 在 他 们 的 数据 中 导航 的 技术 。 数 据 挖掘 已 经 可 以 用 于 商务 应 用 ， 因 为 它 被 三 种 成 熟 技 
术 所 文 持 : 
© 大 量 数据 收集 。 
。 功能 强大 的 多 处 理 器 计算 机 。 
o 数据 挖掘 算法 。 5 | 
表 2-1 ”数据 挖掘 演变 


演变 步 台 可 用 技术 产品 提供 者 特 HE 


数据 收集 (20 世纪 “我 过 去 5 年 的 总 收 计算 机 、 磁 带 、 IBM、 CDC 回顾 的 、 静 态 的 
磁盘 数据 传递 






80 年 代 ) 人 是 多 少 ?” 










数据 访问 (20 世纪 “新 英格兰 三 月 份 的 关系 数据 库 ( RD- Oracle, Sybase, In- 回顾 地 、 记 录 级 
80 年 代 ) 单位 销售 是 多 少 ?” BMS)、 结 构 化 查询 | formix, IBM. Microsoft 动态 的 数据 传递 







语言 (SQL) 、ODBC 


联机 分 析 处 理 | Pilot, Comshare Ar | 回顾 的 、 多 级 动 
(OLAP)、 多 维 数据 | bor, Cognos, Micro- 态 的 数据 传递 
库 、 数 据 仓库 ，. strategy 

高 级 算法 、 多 处 理 | Pilot, Lockheed IBM, | ”预期 的 、 BT HE 4 
ar tt FOL, Ya tet Be) SGI、 大 量 新 出 现 的 公 | 信息 传递 
据 库 司 (新 生产 业 ) 


商业 数据 库 正 在 以 史无前例 的 速度 增长 。 与 之 相伴 的 对 改进 计算 引擎 的 需求 现在 能 够 用 
并 行 多 处 理 器 计算 机 技术 以 合理 的 性 价 比 满足 4 数据 控 掘 算法 体现 了 已 经 至 少 存在 20 ~ 30 
年 的 技术 ， 但 是 在 最 近 才 作为 成 熟 的 、 可 靠 的 、 可 理解 的 、 超 越 较 老 的 统计 学 方法 的 工具 实 
现 。 在 从 商务 数据 到 商务 信息 的 演变 过 程 中 ; 每 二 步 都 建立 在 前 一 步 的 基础 上 例如， 动态 
数据 访问 对 于 数据 导航 应 用 的 钼 取 是 至 关 重 要 的 ， 并 且 存 储 大 型 数据 库 的 能 力 对 于 数据 挖掘 
是 至 关 重 要 的 。 从 用 户 的 观点 来 说 ， 表 2-1 列举 的 4 步 都 是 革命 性 的 ， 因 为 它们 允许 准确 、 
快速 地 回答 新 的 商务 查询 。 数 据 挖掘 技术 的 核心 组 成 部 分 已 经 在 统计 学 、 人 工 智 能 和 机 器 学 
习 等 研究 领域 发 展 了 几 十 年 。 今 天 ， 这 些 技 术 的 成 熟 ， 加 上 高 性 能 的 关系 数据 库 引 擎 和 广泛 
的 数据 集成 ， 使 得 这 些 技术 在 当前 的 数据 仓库 环境 下 成 为 切实 可 行 的 技术 。 

数据 挖掘 产业 的 一 个 持续 趋势 是 企业 资源 规划 (ERP) 零 售 商 和 应 用 服务 提供 者 (ASP) 的 
出 现 。 许 多 大 型 公司 都 通过 实现 ERP 系统 而 获 益 。ERP 系统 试图 将 整个 公司 的 所 有 部 门 和 
职能 集成 到 一 个 计算 机 系统 中 ， 为 这 些 不 同 部 门 的 特定 需求 提供 服务 。 另 一 方面 ，ASP SE 
提供 与 ERP 零售 类 似 的 服务 ,但 面向 较 小 的 公司 ;帮助 这 些 公司 提升 他 们 的 数据 管理 能 力 。 
这 两 种 类 型 的 公司 (ERP 和 ASP 公司 ) 都 可 以 借助 于 提供 附加 的 数据 挖掘 服务 ， 在 市 场 上 赢 
得 更 高 的 地 位 。 提 供 集 成 公司 的 多 个 部 门 的 已 有 数据 的 软件 工具 ， 再 加 上 提供 与 该 软件 包 一 
起 最 有 效 运 行 的 数据 挖 气 工 具 ， 可 能 为 客户 公司 带 来 显著 利益 。 


2.2 “从 数据 挖掘 工具 到 解决 方案 


现在 ,数据 挖掘 已 经 成 为 商务 和 软件 杂志 中 许多 文章 的 主题 。 然 而 ， 几 年 前 还 没有 多 少 
人 听 说 过 数据 挖掘 这 个 术语 。 尽 管 数 据 挖掘 是 一 个 具有 很 长 历史 的 领域 的 演变 ,但 是 该 术语 
本 号 的 引进 相对 较 晚 ， 大约 在 20 世纪 90 年 代 提 出 。 

数据 挖掘 可 以 沿 三 条 谱 线 追 滴 。 其 中 最 长 的 谱 线 是 经 典 统 计 学 。 没 有 统计 学 就 没有 数 
据 挖掘， 因为 统计 学 是 数据 挖掘 建立 于 其 上 的 大 部 分 技术 的 基础 。 经 典 统计 学 包括 诸如 


“新 英格兰 三 月 份 的 
单位 销售 是 多少?” 
“下 钻 到 波士顿 。 
， “下 个 月 波士顿 的 单 
位 销售 会 是 什么 样 ? 
T PPA?” 






数据 仓库 与 决策 支 
持 (20 世纪 80 年 代 ) 











数据 挖掘 (今天 ) 
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都 主要 用 于 研究 数据 和 数据 之 间 的 联系 这 些 都 是 最 基本 的 构件 块 ， 可 以 基于 它们 建立 
更 高 级 的 统计 分 析 。 即 使 在 今天 的 数据 挖掘 工具 和 知识 发 现 技术 中 ， 经 典 的 统计 学 分 析 
仍然 扮演 重要 角色 。 

数据 挖掘 的 次 长 谱 线 是 人 工 智能 (AT) 。 与 统计 学 相反 ， 该 学 科 建 立 在 启发 式 方法 的 基 
础 上 ， 试 图 用 类 似 于 大 的 思考 方法 处 理 统计 学 问题 。 由 于 这 种 方法 对 计算 机 处 理 能 力 要 求 极 
高 ， 直 到 20 世纪 80 年 代 初 ， 计 算 机 开始 以 合理 的 价格 提供 相应 的 功能 时 ， 这 种 方法 才 变 得 
切实 可 行 。AI 在 高 端 科技 和 政府 的 应 用 不 太 多 ,， 并 且 需 要 超级 计算 机 ， 这 使 得 一 般 人 难以 
应 用 AI。 值 得 注意 的 一 个 例外 是 某 些 AI 概念 被 某 些 高 端 商品 化 产品 (如 关系 数据 库 管 理 系 
统 的 查询 优化 模块 ) 采 用 。 随 着 时 间 的 流逝 ， 这 些 已 经 改变 ，AI 被 用 来 创建 处 理 和 解决 复杂 
的 、 数 学 驱动 的 问题 的 新 方法 。MIT 的 人 工 智能 实验 室 ( 创 建 于 20 世纪 60 年代) 对 智能 的 许 
多 方面 进行 着 广泛 研究 。 他 们 的 目标 有 两 个 : 在 所 有 层面 理解 人 类 智能 ， 包 括 推 理 、 理 解 、 
语言 、 发 展 、 学 习 和 社会 层面 ; 基于 智能 构建 有 用 的 制品 。 

数据 挖掘 的 第 三 条 谱 线 是 机 器 学 习 ， 它 可 以 更 准确 地 被 描述 为 统计 学 和 AI 的 结合 。 尽 
管 AI 并 未 获得 商业 成 功 ， 因 此 主要 用 作 一 种 研究 工具 ， 但 是 它 的 技术 在 很 大 程度 上 被 机 器 
学 习 吸 纳 。 因 为 项 目 价 格 比 AIK, 机 器 学 习 能 够 利用 20 世纪 80 年 代 和 90 年 代 计 算 机 不 断 
提高 的 性 价 比 ,，:; 找 到 更 多 应 用 。 机 器 学 习 可 以 看 作 AI 的 演变 ， 因 为 它 融 合 了 AI 的 启发 式 方 
法 和 高 级 统计 分 析 。 枯 器 学 习 试 图 让 计算 程序 学 习 它 研究 的 数据 ， 使 得 程序 基于 所 人 研究 的 数 
据 的 特征 做 出 不 同 的 决策 ， 使 用 统计 学 的 基本 概念 ， 加 上 更 高 级 的 AI 启发 式 方法 和 算法 来 
实现 它 的 目标 。 

这 样 ， 在 许多 方面 ， 数据 挖 气 基 本 上 是 将 机 器 学 习 用 于 商务 和 科学 应 点 用 。 最 好 将 数据 挖 
掘 看 作 统计 学 、AI 和 机 器 学 习 过 去 和 现在 发 展 的 融合 。 这 些 技术 一 起 使 用 ， 研 究 数据 并 发 
现 数据 中 先前 隐藏 的 趋势 或 模式 ， 在 需要 分 析 大 量 数据 以 发 现 其 他 方法 不 能 发 现 的 趋势 的 科 
学 和 商务 领域 ， 数 据 控 掘 正在 逐渐 被 接受 。 


2.3 数据 挖掘 系统 的 演变 


第 一 代 : 现在 称 作 数据 挖掘 系 统 ( data mining system) 的 第 一 代 系 统 出 现 于 20 世纪 80 年 
代 ， 主 要 由 关注 单一 任务 的 、 研 究 驱动 的 工具 组 成 。 那 时 ， 不 太 需 要 完全 理解 数据 的 多 维 层 
面 ， 因 为 使 用 一 维 分 析 工 具 就 能 完成 任务 。 这 个 因特网 出 现 之 前 的 时 代 主 要 分 析 大 型 数据 库 
中 的 单一 问题 。 这 些 任务 包括 使 用 决策 树 或 神经 网 络 工 具 建 立 分 类 器 ， 发 现 数 据 中 的 聚 类 和 
实现 数据 可 视 化 。 这 些 工 具 处 理 一 般 数 据 分 析 问 题 ， 并 且 它 科 的 用 户 需 要 具有 复杂 的 技术 ， 
以 便 理解 和 解释 结果 。 此 外 ， 使 用 多 种 工具 非常 复杂 ， 并 且 涉 及 大 量 数据 和 元 数据 变换 ， 即 
便 对 于 专家 而 言 ， 这 也 不 是 一 项 容易 完成 的 任务 。 

第 二 代 : 大 约 在 1995 年 ， 数 据 挖掘 零售 商 开 发 了 称 作 套装 (suite ) 的 第 二 代数 据 挖掘 系 
统 。 第 二 代 工 具 的 产生 主要 源 于 人 们 认识 到 知识 发 现 过 程 需 要 各 种 类 型 的 数据 分 析 ， 大 部 分 
时 间 都 花 在 数据 清理 和 预 处 理 上 。 这 种 发 现 过 程 通常 包括 发 现 数据 中 的 模式 。 诸 如 SPSS 的 
Clementine, Silicon Graphics 的 ;Mineset 和 IBM 的 Intelligent Miner 这 样 的 套装 允许 用 户 执行 多 
种 发 现任 务 (通常 有 分 类 、 聚 类 和 可 视 化 )， 并 支持 数据 变换 和 可 视 化 。 

第 三 代 : 尽管 第 二 代 系 统 试图 解决 商务 用 户 不 能 直接 使 用 系统 的 问题 ， 但 是 这 些 问题 依 
然 存 在 。 它 们 需要 大 量 的 统计 学 理论 ， 以 便 支持 多 种 发 现任 务 。 这 意味 为 了 提取 隐藏 的 信息 
模式 ， 需 要 花费 大 量 时 间 搞 清楚 应 当 使 用 什么 算法 和 如 何 使 用 它 来 产生 有 用 的 结果 。 于 是 ， 


fa £22 


就 出 现 了 第 三 代 系 统 。 由 于 商务 用 户 的 需要 ， 出 现 了 第 三 代 系 统 ， 即 20 世纪 90 年 代 的 基于 
应 用 和 解决 方案 的 从 生产 到 销售 全 过 程 的 数据 挖掘 。 这 些 工 具 主 要 源 于 解决 具体 的 商务 问 
题 ， 如 预测 未 来 顾客 会 购买 什么 或 菜 企 业 的 库存 优化 。 这 种 知识 发 现 过 程 筛 选 存储 在 大 型 数 
据 库 中 的 信息 ， 发 现 隐 藏 的 模式 。 结 果 传 递 给 诸如 决策 支持 系统 这 样 的 前 端 应 用 ， 使 得 商务 
用 户 能 够 基于 数据 挖掘 工具 所 要 处 理 的 特定 问题 进行 决策 ， 而 忽略 数据 挖掘 开具 的 细节 。 
从 生产 到 销售 全 过 程 的 数据 挖掘 应 用 已 被 开发 出 来 ， 能 为 正确 的 决策 提供 高 回报 。 这 些 
应 用 通常 解决 最 常见 ， 同 时 对 于 管理 者 来 说 也 是 最 为 关键 的 商务 问题 。 :这 意味 着 ， 尽 管 结果 
源 于 应 用 ,但 是 理解 这 些 数据 ， 并 且 基 于 这 些 数据 做 出 重要 和 关键 的 商务 决策 还 取决 于 企业 
的 经 理 。 此 外 ， 随 着 因特网 不 断 改变 企 业 与 竞争 对 手 的 竞争 方式 ， 数 据 挖 气 为 企业 提供 了 新 
的 苋 争 潜力 。 现 在 ,这些 拥有 海量 信息 的 企业 可 以 评估 数据 挖 抉 工具 的 回报 。 这 些 积累 了 几 
个 数量 级 数据 的 企业 可 以 将 数据 挖掘 工具 用 于 这 些 数据 ， 帮 助 企业 做 出 最 佳 决 策 ; 
因特网 充斥 许多 处 于 数据 库存 储 前 沿 的 新 的 数据 类 型 。 随 着 数量 的 增长 ， 数 字 图 书馆 正 
用 来 存储 诸如 声音 、 文 本 、 视 频 和 图 像 等 数据 。Web 数据 挖掘 或 Web 挖掘 对 数据 挖掘 公司 
提出 了 新 的 挑战 。 分 析 顾 客 日 志 中 的 点 击 流 数 据 ， 为 特定 的 顾客 实时 地 确定 正确 的 广告 或 推 
存 产 品 是 数据 挖掘 公 司 面 临 的 新 间 题 。 为 了 实时 地 确定 顾客 应 当 有 什么 样 的 弹出 菜单 ， 出 现 
了 多 种 技术 来 提供 上 下 文敏 感 的 菜单 ， 从 而 为 公司 提供 这 种 服务 。 研 究 者 正在 开发 新 的 方 
法 ,为 Web 站 点 做 预测 。 协 同 过 滤 最 初 是 在 MIT 开发 的 ， 并 在 Firefly Network( 萤火虫 网 络 ) 
(1998 年 被 微软 收购 和 Net Perception ( 网 络 感知 ) 中 实现 ， 现 在 用 于 网 络 站 点 ， 试 图 预测 顾 
客 未 来 的 购买 模式 。 协 同 过 滤 基 于 这 样 的 假定 : 寻找 信息 的 人 应 当 能 够 利用 其 他 大 已 经 发 现 
和 评 佑 的 信息 。 这 样 ， 这 些 系统 根据 顾客 购买 和 选择 的 商品 信息 ， 预 测 顾 客 将 来 可 能 的 购买 
行为 。 当 前 的 协同 过 滤 系统 为 读者 提供 工具 ， 基 于 读者 组 群 的 凝聚 评估 过 滤 文 档 。 


2.4 , 知识 发 现 过 程 


知识 发 现 过 程 或 数据 挖掘 的 步 怠 梳 述 如 下 

o 定义 问题 。 这 个 初始 步骤 涉及 理解 问题 和 了 解 项 目的 目标 和 期 望 是 什么 。 

® 收集 、 清 理 和 准备 数据 。 这 需要 了 解 需要 什么 数据 、 哪 些 数据 是 最 重要 的 并 集成 信 
县 。 完 成 这 一 步 需 要 很 大 的 工作 量 ， 大 约 占 整个 数据 挖掘 工作 量 的 70% 。 

o 数据 挖 气 。 这 个 模型 构建 步骤 涉及 选择 数据 挖掘 工具 ， 如 果 数 据 挖掘 工具 需要 的 话 ， 
还 要 变换 数据 ， 产 生 训 练 和 检验 模型 的 样本 ， 并 且 最 终 使 用 该 工具 构建 和 选择 一 个 
模型 。 

o 验证 模型 。 检 验 模型 ， 确 保 它 产生 正确 和 足以 满足 需要 的 结果 a 

o 监控 模型 。 监 控 模 型 是 必要 的 ， 因 为 随 着 时 间 流 逝 ， 必 须 重新 验证 模型 ， 以 确保 它 仍 
然 满足 要 求 。 一 个 今天 运行 良好 的 模型 明天 可 能 就 无 法 满足 要 求 ， 因 此 必须 监控 模型 
的 行为 ， 确 保 它 满足 性 能 要 求 。 


2.5 数据 挖掘 支撑 技术 概述 


数据 挖掘 是 多 种 技术 的 集成 ， 如 图 2-1 所 示 。 统计 学 、 决 策 支持 系统 、 数 据 库 管理 和 数 
据 仓 库 、 机 器 学 习 、 可 视 化 和 并 行 处 理 技 术 都 是 相互 影响 和 支持 数据 挖掘 工具 的 工具 。 统计 
学 和 机 器 学 习 都 继续 朝 着 更 复杂 的 统计 技术 发 展 。 Sao lie a 帮助 经 
理 做 出 决策 并 指导 他 们 进行 管理 。 例 如 ， 用 来 安排 会 议 、 组 织 活动 的 工具 ， 电 子 数 据 表 图 形 
工具 和 人 性 能 评 佑 工具 都 是 支持 系统 的 例子 。 mh 
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可 视 化 领域 的 研究 者 以 不 同 的 方式 进入 数据 挖掘 领域 :为 数据 挖掘 者 提供 交互 式 的 数据 挖掘 
工具 。 数 据 库 管理 和 数据 仓库 集成 各 种 数据 源 ， 组 织 数据 使 得 数据 可 以 有 效 地 挖掘 ， 为 数据 
挖掘 过 程 提 供 支 持 。 最 后 ， 数 据 挖掘 算法 的 可 伸缩 性 是 需要 关注 的 问题 之 一 。 使 用 并 行 处 理 
的 技术 是 数据 挖掘 进展 的 另 一 个 关键 技术 支撑 。 
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图 2-1 数据 挖掘 技术 


2.5.1 ”数据 挖掘 ;验证 与 发 现 “ 


数据 挖掘 不 是 简单 的 查询 提取 、 验 证 /分 析 工 具 。 决 策 支持 系统 (DSS) 、 主 管 信息 系统 
和 查询 生成 工具 主要 用 来 产生 关于 数据 的 报表 。 以 这 种 方式 ， 这 些 查询 工具 主要 用 来 访问 已 
经 存放 在 大 型 数据 库 中 的 记录 。 提 取 数 据 之 后 ， 可 以 检查 这 些 数据 以 获得 已 有 模式 或 用 来 回 
答 感 兴趣 问题 的 其 他 信息 。 这 种 发 现 已 有 数据 中 的 趋势 的 数据 提取 方法 称 作 验 证 方法 (verifi- 
cation method) 。 在 这 种 模式 下 ， 数 据 挖掘 者 必须 对 感 兴趣 信息 的 存在 性 做 出 假设 ， 将 假设 
转换 成 查询 提交 给 数据 仓库 ， 并 针对 所 做 的 决策 解释 返回 的 结果 。 使 用 这 种 方法 将 不 断 地 提 
出 假设 ,使 用 查询 工具 支持 或 否定 它 。 这 是 一 种 为 提出 的 问题 找 出 一 种 可 能 解 的 系统 方法 。 
使 用 这 种 检索 方法 并 不 创建 多 少 信 息 。 

数据 挖 气 使 用 的 方法 与 此 不 同 。 数 据 挖掘 使 用 发 现 方法 ， 和 根据 所 使 用 的 方法 ， 该 技术 只 
凭借 少量 用 户 指导 ， 试 图 发 现 趋势 并 产生 关于 数据 的 结果 。 这 种 技术 用 来 发 现 最 重要 的 数据 
源 ， 并 根据 筛选 的 数据 做 出 结论 。 数 据 挖掘 考察 大 量 数据 ， 发 现 事 实 并 提醒 进行 挖掘 的 人 注 
意 。 就 这 一 点 而 论 ， 数 据 挖掘 是 发 现 工具 ， 它 实现 更 有 效 的 探索 相关 数据 的 方式 并 将 这 些 信 
息 提供 给 数据 挖掘 者 。 | 


2.5.2 决策 支持 系统 


决策 支持 系统 (DSS ) 通 常 与 数据 挖掘 工具 相关 联 ， 帮 助 主管 做 出 更 有 远见 的 决策 ( 见 图 
2-1)。 尽 管 当 前 市 场 上 存在 形形色色 的 决策 支持 系统 ， 但 是 它们 的 应 用 主要 是 为 主管 综合 数 
据 ， 使 得 他 们 能 够 基于 数据 分 析 做 出 更 客观 的 决策 。DSS 技术 产生 于 20 世纪 80 年 代 中 期 ， 
并 且 DSS 分 析 工 具 也 在 不 断 改 进 。 在 当今 Internet 时 代 ， 联 机 分 析 处 理 ( OLAP) 正 慢 慢 地 取 
代 老化 的 决策 系统 。 从 本 质 上 讲 ， 如 果 一 个 计算 机 化 系统 不 是 联机 事务 处 理 ( OLTP) 系统 ， 
则 该 系统 被 看 作 是 DSS。 逐 渐 地 ，OLAP 和 多 维 数据 分 析 用 于 决策 支持 系统 ， 以 便 从 数据 库 
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中 发 现 信息 。 主 管 信息 服务 (EIS)、 地 理 信息 系统 (GIS) , OLAP 和 知识 发 现 系统 都 可 以 划 归 
到 DSS 的 系统 范畴 。DSS 的 两 个 主要 类 别 包括 企业 范围 DSS 和 桌面 DSS。 在 企业 范围 DSS 
H, DSS 连接 到 大 型 数据 仓库 ， 通 常 为 组 织 内 部 的 许多 经 理 提 供 服务 。 这 种 大 型 基础 设施 使 
经 理 们 能 够 快速 访问 数据 。 在 企业 范围 DSS 中 ; 最 复杂 的 企业 范围 分 析 系 统 提 供 对 一 系列 
面向 决策 的 数据 库 或 数据 集 市 、 预 定义 的 模式 和 图 表 的 访问 ， 提 供 对 公司 数据 仓库 中 变量 的 
即时 访问 。 此 外 ， 像 数据 挖掘 这 样 的 数据 分 析 工 具 可 以 进一步 操纵 数据 ， 帮 助 经 理 做 出 有 远 
见 的 决策 。 与 企业 范围 DSS 相反 ， 桌 面 DSS 主要 由 一 个 经 理 使 用 s 在 大 部 分 组 织 中 ,企业 
范围 DSS、 数 据 仓 库 和 桌面 DSS 之 间 存 在 持续 的 通信 流 。 企 业 可 以 实现 各 种 DSS 结构 。 例 
如 ， 可 以 实现 单一 的 企业 范围 DSS， 以 处 理 企业 的 所 有 数据 和 操作 流 ; 或 者 用 其 他 决策 支持 
系统 ， 如 驻 留 在 单个 用 户 桌面 的 桌面 DSS 实现 多 层 DSS。 客 户 - 服务 器 体系 结构 可 以 在 客户 
竟 面 和 驻 留 在 服务 器 上 的 相关 联 的 DSS 工具 之 间 传 递 信息 。 


23.0 ULAP 


OLAP 是 一 种 技术 ， 可 以 根据 存储 在 关系 和 二 维 数据 库 表 中 的 信息 构建 多 维 数据 立方 
体 。 用 户 可 以 使 用 这 些 数据 回答 现实 世界 中 复杂 的 商务 查询 。 联 机 分 析 处 理 ( OLAP) 是 一 种 
软件 技术 ,能够 快速 分 析 共 享 的 多 维 信息 。 多 维 数据 是 用 以 下 方式 组 织 的 数据 介 许 同时 在 
多 个 维 上 查看 和 比较 数据 一 一 与 电子 数据 表 的 二 维 ( 水 平和 垂直 ) 结构 截然 不 同 。 尽 管 电子 
数据 表 人 允许 用 户 比较 二 维 数据 ， 但 是 多 维 结构 提供 几乎 无 限 多 个 视图 和 关联 。 为 了 快速 地 回 
答 诸如 “ 北 印度 2003 年 第 四 季度 销售 最 好 、 至 少 具有 20% 利润 空间 并 上 且 通过 间接 销售 渠道 
销售 的 生产 线 是 什么 ?” 之 类 的 复杂 问题 ， 多 维 分 析 是 必要 的 。 

OLAP 通过 为 商务 用 户 提供 快速 的 、 不 受 限 制 的 大 量 汇 总 数据 的 多 重 联系 视图 ， 使 得 用 
户 能 够 做 出 更 好 的 决策 。 这 可 能 导致 对 大 量 汇总 数据 多 维 分 析 的 高 性 能 访问 。 使 用 OLAP， 
经 理 和 分 析 人 员 能 够 快速 、 容 易 地 在 海量 数据 上 考察 关键 性 能 数据 ， 进 行 比较 和 趋势 分 析 。 
数据 比较 可 以 用 于 各 种 商务 领域 ,包括 营 销 分 析 、 财 务 报告 、 质 量 跟踪 、 赢 利 分 析 、 人 力 和 
定价 应 用 ， 等 等 。OLAP 使 用 数据 仓库 技术 ， 根据 来 自 企 业 范 围 的 数据 创建 信息 库 ( 见 图 
2-2) 。 无 论 数据 驻 留 何 处 ， 对 于 网 络 任何 位 置 上 任何 支持 平台 的 应 用 请 求 ， 包 括 基 于 Web 
的 应 用 ， 数 据 都 是 可 访问 的 。 
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图 2-2” OLAP 概览 
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2.5.4 RM DSS 


果 面 单 用 户 的 DSS 不 如 企业 范围 的 系统 流行 ， 因 为 它们 不 允许 多 个 用 户 链接 到 大 型 数据 
仓库 获得 信息 。 然 而 ,桌面 DSS 确实 是 有 用 的 。 个 人 用 户 可 以 使 用 微软 Excel, Lotus 1-2-3 或 
其 他 专门 的 DSS 应 用 程序 为 某 个 经 理 分 析 信息 Expert- Choice 就 是 用 作 桌 面 DSS 的 专门 Win- 
dows 软件 包 的 例子 。ExpertChoice 是 一 种 软件 工具 ;主要 通过 分 析 由 目标 : 可 能 的 场景 、 标 准 
和 选择 组 成 的 层次 模型 ， 从 而 支持 决策 。 例 如 ， 一 个 使 用 Excel 对 财务 问题 建 模 的 Goldman Sa- 
chs 的 分 析 人 员 可 以 将 他 /她 的 发 现 作 为 企业 范围 DSS 的 程序 组 件 提供 给 经 理 。 然 后 ， 分 析 人 
员 可 以 继续 分 析 ， 并 且 一 旦 完成 就 可 以 把 他 们 的 发 现 放 到 公司 内 部 的 互联 网 上 。 

一 般 来 说 ， 无 论 是 解决 战略 决策 还 是 运营 决策 ，DSS 都 具有 明确 的 用 途 。 可 以 用 来 检索 
和 分 析 数 据 的 工具 、 数 据 库 、 包 括 的 变量 和 数据 的 时 间 序 列 决定 可 以 提出 的 问题 和 可 以 产生 
的 决策 相关 的 信息 。 然 而 ， 从 长 远 来 看 ，DSS 可 以 帮助 经 理 提取 、 汇 总 和 分 析 决 策 相 关 的 数 
据 ， 制 定 更 加 明智 和 有 远见 的 决策 。 


2.5.5 数据 仓库 


数据 挖掘 和 DSS 是 两 类 使 用 数据 仓库 的 应 用 。 通 过 DSS， 一 个 经 理 可 以 做 出 更 有 远见 的 
决策。 然而 ， 通 过 与 数据 仓库 相 结合 ，DSS 可 以 更 好 地 使 用 高 质量 的 信息 ， 并 以 更 有 效 的 方 
式 解 释 信 息 。 从 本 质 上 讲 ， 数 据 仓 库 是 一 个 企业 或 组 织 的 商务 系统 收集 的 所 有 或 重要 数据 的 
中 心 存储 L1，2,，3]。 通 常 ， 数 据 仓库 存放 在 企业 





的 大 型 服务 器 上 。 来 自 各 种 联机 事务 处 理 (OLTP) 操作 环境 下 得 到 的 应 用 数据 
应 用 和 其 他 信息 源 的 数据 有 选择 地 被 提取 和 组 织 


到 数据 仓库 的 数据 库 中 ， 用 于 诸如 数据 挖掘 工具 “ (数据 进入 数据 仓库 ) 
这 样 的 分 析 应 用 ( 见 图 2-3) 。 这 样 ， 通 过 提供 进行 | 
分 析 的 集成 的 、 历 史 数 据 平 台 ， 它 用 于 支持 需要 
数据 管理 的 组 织 的 信息 处 理 。 

数据 仓库 的 4 个 主要 特征 : 数据 仓库 包括 如 下 
4 个 主要 特征 : | 

e 面 问 主题 的 

e。 集 成 的 

o WARY 

。 韭 易 变 的 

数据 从 操作 环境 进入 数据 仓库 ( 见 图 2-3)。 也 图 2-3” 数 据 仓库 
就 是 说 ， 数 据 仓库 逻辑 上 总 是 数据 的 独立 存储 ， 
这 些 数据 是 从 操作 环境 得 到 的 应 用 数据 的 变换 而 来 的 。 数据 仓库 的 一 个 主要 特征 是 它 是 面向 
主题 的 。 作 为 一 个 例子 ， 数 据 仓 库 可 以 围绕 企业 的 顾客 、 产 品 或 研发 进行 构建 。 相 比 之 下 ， 
操作 数据 库 系统 多 半 围 绕 主题 领域 的 应 用 和 功能 进行 组 织 。 这 两 种 系统 结构 的 主要 区 别 是 数 
据 仓 库 排除 不 被 DSS 工具 使 用 的 所 有 人 信息。 然而， 操作 数 据 库 系统 包含 所 有 数据 ， 无 论 DSS 
工具 是 否 使 用 这 些 数据 。 

数据 仓库 的 男 二 个 特点 是 数据 仓库 中 的 数据 是 一 Pry 例如 ， 数 据 仓库 使 用 一 种 特定 日 
期 格式 ， 而 不 是 多 种 日 期 格式 。 这 种 一 致 性 适用 于 进入 数据 仓库 的 所 有 数据 。 所 有 的 变量 、 
命名 方案 和 编码 结构 都 遵循 预先 的 约定 。 对 于 研究 数据 的 DSS 分 析 人 员 ， 他 /她 的 关注 点 将 
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是 使 用 数据 仓库 中 的 数据 ， 而 不 必 担 心 数 据 的 一 致 性 和 可 信 性 。 

数据 仓库 的 第 三 个 特征 是 时 变性 。 在 操作 环境 下 ， 希望 数据 在 被 访问 时 是 精确 的 。 然 
而 ， 在 数据 仓库 中 ， 数 据 在 某 时 间 段 是 精确 的 。 其 主要 区 别 是 操作 环境 与 仓库 环境 的 时 间 范 
围 显 堵 人 不同。 在 数据 仓库 中 ， 数 据 长 时 间 保 存 ， 通 常 要 保留 若干 年 。 相 比 之 下 ， 在 操作 环境 
下 ,数据 通常 维护 数 月 。 这 样 ， 操 作 环 境 下 的 应 用 必须 具有 高 度 的 灵活 性 ， 因 为 数据 会 不 断 
地 更 新 。 在 数据 仓库 环境 下 ,维护 大 量 记录 会 给 更 新 数据 仓库 带 来 困难 。 

最 后 ， 数 据 仓库 的 第 四 个 有 趣 特征 是 它 是 非 易 变 的 。 尽 管 在 操作 环境 下 经 常 更 新 ， 但 是 
在 数据 仓库 中 ， 一旦 数据 装 人 就 不 会 出 现 对 数据 的 进一步 更 新 。 不 需要 像 操作 环境 那样 ， 通 
过 备份 与 恢复 来 维护 记录 ， 也 不 再 需要 事务 、 数 据 完整 性 和 死 锁 检测 。 

这 样 ， 这 四 个 基本 性 质 使 得 数据 仓库 的 环境 明显 有 别 于 操作 环境 。 然 而 ， 进 入 数据 仓库 
的 所 有 数据 都 来 源 于 操作 环境 。 数 据 仓库 充 当 一 种 工具 ， 把 这 些 数据 变换 成 分 析 与 综合 数据 
时 更 有 用 的 形式 。 数 据 仓库 的 维护 和 设计 的 简洁 性 使 得 数据 仓库 成 为 向 数据 挖掘 工具 传送 高 
质量 信息 的 重要 因素 。 面 向 主题 的 、 集 成 的 、 时 变 的 和 非 易 变 的 特性 对 于 为 其 他 系统 维护 一 
致 数据 都 起 到 重要 作用 。 


2.5.6 数据 挖掘 过 程 


识别 和 利用 隐藏 在 数据 中 信息 的 目标 有 三 个 要 求 : 

。 捕 获 的 数据 必须 集成 到 企业 范围 的 视图 ， 而 不 是 特定 的 视图 。 

© 必须 提取 包含 在 集成 的 数据 中 的 信息 。 

© 必须 以 有 利于 制定 决策 的 方式 组 织 得 到 的 信息 。 

数据 挖掘 过 程 [4，5] 可 以 分 为 四 步 ， 将 数据 仓库 中 已 多 IC A OL EE 
生 有 用 结果 的 信息 s 这 四 个 步骤 可 以 概括 为 : 

。 数 据 选择 

。 数 据 变换 

© 挖 据 数 据 

© 解释 结果 

数据 选择 为 进行 分 析 而 收集 数据 。 et 
数据 挖掘 将 提取 所 期 望 的 信息 类 型 ， 产 生 待 解释 的 结果 。 在 图 2-4 中 ， 数 据 挖掘 工具 将 从 数 
据 仓库 环境 提取 相关 信息 。 为 了 运行 数据 挖掘 工具 ， 必 须 在 数据 挖掘 之 前 进行 数据 选择 和 数 
据 变换 。 结 果 传 递 到 面向 决策 的 数据 库 或 数据 集 市 ， 在 那里 用 户 可 以 根据 结果 提出 建议 ， 并 
将 建议 付 诸 行动 。 当 然 ， 假 定 这 四 个 步骤 都 能 成 功 完成 ， 但 事实 并 非 总 是 如 此 。 

数据 选择 可 能 是 这 一 过 程 中 最 重要 的 步骤 。 这 是 因为 在 数据 提取 实际 进行 之 前 预先 找 出 
和 构造 选择 标准 非常 复杂 。 这 一 步 应 当 确 定 选取 的 变量 和 它们 的 值 域 。 例 如 ， 一 位 希望 提高 
销售 量 的 销售 主管 将 预先 选择 购买 行为 非常 活跃 的 顾客 并 观察 他 们 的 行为 。 该 主管 可 以 挖掘 
所 有 的 数据 ， 但 这 样 做 可 能 成 本 非常 高 ， 因 为 数据 挖掘 工具 必须 搜索 所 有 这 些 数据 ， 并 且 得 
到 结果 后 在 预 ie tir lon energetic Ma 小 心地 选择 数据 是 一 个 非常 重要 的 
步骤 。 : 

HAPE TRACHEA, BL NY F AE Ae te TE 
求 的 特定 格式 。 通 过 一 些 变换 并 应 用 算法 将 数据 转换 成 适合 进一步 使 用 数据 挖掘 工具 处 理 的 
特定 格式 ， 数 据 被 进一步 综合 。 
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图 2-4- 数据 挖掘 过 程 


一 旦 完成 数据 选择 和 所 需要 的 变换 ， 就 可 以 使 用 数据 挖掘 工具 。 通过 使 用 设计 良好 的 算 
法 ( 稍 后 章节 讨论 ) ， 基 于 先前 收集 的 数据 对 未 来 事件 的 特定 预测 可 以 产生 重要 的 发 现 。 建 
议 数据 仓库 与 数据 挖掘 工具 一 起 使 用 ， 因 为 这 可 以 更 有 效 地 以 有 利于 分 析 的 方式 组 织 数据 。 
此 外 ， 数 据 挖掘 工具 也 可 以 与 DSS 连接 ， 以 便 进一步 解释 数据 。 然 而 ,数据 挖 掘 系统 不 必 
总 是 与 数据 仓库 交互 ， 并 且 事 实 上 数据 挖掘 还 可 以 从 数据 库 中 的 原始 数据 中 提取 相关 信息 。 
使 用 数据 仓库 的 主要 优点 是 : 大 部 分 数据 已 经 集成 为 合适 的 格式 ， 使 得 数据 挖掘 工具 更 容易 
提取 高 质量 的 信息 。 

数据 挖掘 过 程 的 最 后 一 步 是 解释 结果 。 一 旦 分 析 和 解释 了 所 提取 的 信息 ， 就 可 以 将 最 相 
关 的 信息 通过 DSS 传递 给 决策 制定 者 。 结 果 的 解释 不 仅 包 括 解 释 输 出 ， 而 且 包括 进一步 过 
滤 数据 并 将 信息 传递 到 决策 支持 系统 。 当 解释 的 结果 不 令 人 满意 时 ， 就 要 重复 先前 的 步 又， 
直到 所 产生 的 信息 对 于 数据 挖掘 者 而 言 具有 最 大 的 附加 价值 为 止 。 

可 见 ， 数 据 挖掘 是 一 个 非常 复杂 的 过 程 。 在 将 数据 提供 给 数据 挖掘 工具 之 前 ; 许多 步骤 
都 需要 正确 地 执行 。 此 外 ， 不 能 确保 数据 挖掘 工具 在 挖掘 过 程 任何 一 步 都 产生 有 意义 的 结 
果 。 毫 无 疑问 ， 应 当 进 行 一 些 试验 ， 因 为 试验 可 以 揭示 每 个 步骤 的 误差 校正 。 可 以 修改 前 面 
提 到 的 每 一 步 来 进一步 考察 数据 ， 搜 索 隐 藏 的 模式 。 这 是 数据 挖掘 组 织 所 面临 的 挑战 ， 尽 管 
这 可 能 是 一 个 需要 付出 极 大 努力 的 过 程 。 被 挖掘 的 数据 越 多 ， 挖 掘 者 从 这 一 过 程 中 学 到 的 也 
越 多 。 

像 DSS 和 数据 仓库 环境 这 样 的 工具 的 使 用 完善 了 用 来 发 现 隐藏 在 数据 层 中 的 有 用 事实 
的 数据 挖 气 工具 。 为 了 尽 可 能 提高 数据 挖掘 的 效率 ， 这 些 工具 都 必须 向 数据 挖掘 工具 提供 高 
质量 的 信息 传递 。 过 滤 数 据 的 辅助 工具 的 使 用 与 功能 强大 的 数据 挖掘 工具 二 起 应 当 是 设计 良 
好 的 环境 的 一 部 分 。 和 

DSS 和 数据 仓库 与 数据 挖掘 工具 集成 ， 提 取 数 据 中 隐藏 模式 的 方式 如 图 2-4 所 示 。 图 中 
所 显示 的 是 数据 挖掘 框架 提取 工具 所 必需 的 三 个 主要 成 分 。 正 如 前 面 所 讨论 的 ，DSS 确实 使 
得 经 理 可 以 考察 数据 ， 帮 助 他 或 她 做 出 决策 。DSS 将 得 到 从 数据 挖掘 工具 传递 过 来 的 结果 。 
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数据 仓库 系统 将 综合 和 集成 输入 到 数据 挖掘 工具 的 数据 。 这 样 ， 数 据 挖掘 工具 将 与 DSS 结 
合 ， 为 企业 实现 数据 挖掘 策略 提供 最 终 解决 方案 。 然 而 ， 在 此 之 前 ， 在 将 数据 输入 到 数据 控 
掘 工具 之 前 ， 必 须 集成 和 预 分 析 选 取 的 数据 。 集 成 数据 涉及 将 主要 驻 留 在 具有 多 个 文件 或 数 
据 库 的 操作 环境 中 的 数据 合并 。 进 行 数据 变换 的 工具 通常 与 数据 控 掘 工具 一 起 提供 。 这 是 因 
为 数据 挖 握 开发 者 也 构建 集成 与 合并 数据 挖掘 功能 的 工具 。 注 意 , 对 于 数据 挖 气 ， 构 建 数据 
仓库 不 是 必需 的 。 数 据 可 以 直接 从 操作 文件 下 载 到 一 般 文件 ， 一 般 文 件 包含 可 以 用 于 数据 挖 
掘 分 析 的 数据 。 然 而 ， 在 大 部 分 情况 下 ， 输 入 到 数据 挖掘 工具 的 数据 需要 加 以 综合 和 集成 。 
这 征 数据 仓库 的 任务 。 通 常 ， 数 据 挖掘 工具 将 通过 SQL 接口 访问 数据 仓库 综合 的 数据 。 数 
据 仓 库 、 数 据 挖掘 工具 和 决策 支持 系统 之 间 的 通信 将 继续 ， 直 到 数据 挖掘 者 找到 最 佳 解决 方 
案 为 止 。 


2.6 数据 挖掘 技术 


效 据 挖掘 技术 可 以 解决 哪些 类 型 的 商务 问题 ?为 了 有 效 地 使 用 这 些 工具 ， 工 具 的 使 用 者 
必须 理解 什么 ? 诸如 “产品 X 的 销售 七 月 份 增长 了 吗 ?” 或 “ 当 产 品 立 促销 时 ， 产 品 X 的 销售 
减少 了 吗 ?" 这 类 问题 容易 解决 ， 无 需 数据 挖掘 的 支持 。 此 外 ,已 有 的 工具 ， 如 OLAP 和 统计 
技术 可 以 用 于 这 种 情况 ， 以 分 析 这 类 问题 。 相 比 之 下 ， 使 用 数据 挖掘 ， 我 们 可 以 问 这 样 的 问 
题 :“ 决 定 产品 X 销售 的 最 佳 因素 有 哪些 ?” 然 而 ， 对 于 解决 某 类 问题 ， 并 非 所 有 的 数据 挖掘 
工具 都 是 最 好 的 。 对 于 特定 类 型 的 问题 ， 有 些 工具 比 其 他 工具 更 合适 。 

使 用 传统 的 工具 ， 试 图 得 到 诸如 上 述 问 题 答 案 的 分 析 者 将 艰难 地 试图 通过 试验 产生 一 个 
模型 。 他 或 她 将 首先 就 一 个 假设 提出 一 系列 假定 ， 然 后 检验 它 ， 最 后 提出 附加 的 假设 ， 并 以 
迭代 的 方式 重复 检验 过 程 ， 建 立 一 个 模型 。 使 用 数据 挖掘 ， 尽 管 需 要 做 出 一 系列 假设 和 假 
定 ， 检 验 它 并 进行 修订 ,但 是 使 用 数据 挖掘 工具 的 优点 是 发 现 合适 模型 的 大 部 分 工作 从 分 析 
者 转移 到 计算 机 。 这 样 ， 产 生 模 型 需要 的 工作 量 大 大 减少 ， 并 且 使 用 计算 机 可 以 评估 大 量 模 
型 ， 增 加 了 找到 正确 模型 的 几率 。 

TAZ 

。 关联 

© 序列 模式 

© 分 类 /回归 分 析 

© 决策 树 

© 神经 网 络 

e 可 视 化 

e RA 

o 协同 过 滤 

© 数据 变换 和 清理 

© 偏差 和 欺诈 检测 

e 估计 和 预报 

o 由 叶 斯 和 依赖 网 络 

© OLAP 和 多 维 分 析 

© 统计 分 析 

© 文本 分 析 

© Web 挖掘 
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以 上 数据 挖掘 应 用 方法 的 列表 包含 了 数据 挖掘 使 用 的 大 部 分 技术 。 当 前 数据 挖掘 的 比较 
重要 的 应 用 主要 是 关联 和 序列 模式 工具 、 分 类 、 可 视 化 和 聚 类 。 协 同 过 滤 是 主要 用 于 Web 
挖掘 的 相对 较 新 的 应 用 。 
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BIS 数据 挖掘 算法 的 数据 类 型 、 
输入 和 输出 


3.1 =) | 


现代 科学 与 工程 使 用 基本 原理 (first-principle) 模型 描述 物理 、 生 物 和 社会 系统 。 这 种 方 
法 从 像 牛 顿 运动 定律 或 麦克 斯 韦 电磁 学 方程 这 样 的 基本 科学 模型 开始 ， 然 后 在 其 上 建立 各 种 
机 械 工程 或 电子 工程 应 用 。 在 这 种 方法 下 ， 实 验 数据 用 来 验证 基本 原理 模型 ， 估 计 某 些 有 时 
很 难 或 不 可 能 直接 测量 的 参数 。 然 而 ， 在 许多 领域 ， 基 本 原理 是 未 知 的 ， 或 者 所 研究 的 系统 
太 复 杂 ， 很 难以 数学 方式 形式 化 。 随 着 计算 机 的 广泛 使 用 ， 大 量 的 数据 由 这 种 系统 产生 。 在 
缺乏 基本 原理 模型 的 情况 下 ， 可 以 使 用 这 种 数据 ， 通 过 估计 系统 变量 之 间 的 有 用 联系 ( 即 未 
知 的 输入 -输出 依赖 ) 导出 模型 。 这 样 ， 就 存在 一 个 从 基于 基本 原理 的 建 模 与 分 析 ， 到 直接 
由 数据 开发 模型 和 进行 相应 分 析 的 范 型 转移 。 

在 今天 的 具有 大 型 Internet 基础 设施 的 基于 多 媒体 的 环境 下 ， 产 生 了 不 同类 型 的 数据 并 
被 数字 化 地 存储 。 为 了 准备 合适 的 数据 挖掘 方法 ， 我 们 必须 分 析 数 据 集 的 基本 类 型 和 特征 。 
这 种 分 析 的 第 一 步 是 根据 数据 的 计算 机 表示 和 使 用 对 其 系统 地 分 类 。 通 常 作为 数据 挖掘 过 程 
数据 源 的 数据 可 以 分 成 三 类 : 结构 化 数据 、 半 结构 化 数据 和 无 结构 数据 。 大 部 分 商务 数据 包 
含 结构 化 数据 ， 它 们 具有 和 良好 定义 的 字段 ， 取 数值 或 文字 值 ， 而 科学 数据 库 可 能 包含 所 有 这 
三 类 数据 。 半 结构 化 数据 的 例子 有 商业 文档 的 电子 图 像 、 医 疗 报告 、 行 政 报告 和 维修 手册 。 
Web 文档 多 数 都 属于 这 一 类 。 无 结构 数据 的 一 个 例子 是 商场 监控 器 记录 的 视频 数据 。 由 于 
硬件 价格 的 下 降 ， 感 兴趣 的 事件 或 过 程 的 可 视 化 的 视频 和 多 媒体 记录 正 日 趋 流行 。 这 种 形式 
的 数据 一 般 需 要 经 过 大 量 处 理 ， 提 取 和 组 织 其 中 的 信息 。 结 构 化 数据 通常 称 为 传统 数据 ， 而 
半 结 构 化 和 无 结构 数据 统称 非 传统 数据 (也 称 多 媒体 数据 ) 。 当 前 的 大 部 分 数据 挖掘 方法 和 
商品 化 工具 都 用 于 传统 数据 。 然 而 ， 应 用 于 非 传 统 数据 的 数据 挖掘 工具 ， 以 及 将 非 传 统 数 据 
变换 成 结构 化 格式 接口 的 开发 正在 快速 进行 中 。 


3.2 ”实例 和 特征 


用 于 数据 挖掘 的 结构 化 数据 的 标准 模型 是 案例 (实例 ) 的 汇集 。 要 指定 称 作 特征 (feature ) 的 
可 能 测量 值 ， 并 且 这 些 特 征 在 许多 案例 上 统一 测量 。 通 常 ， 数 据 挖掘 问题 的 结构 化 数据 表示 采 
用 表 或 单个 关系 (关系 数据 库 使 用 的 术语 ) 形 式 ， 其 中 列 是 存放 在 表 中 的 对 象 的 特征 ， 行 是 
具体 实体 在 这 些 特征 上 的 值 。 图 3-1 给 出 了 数据 集 和 它 的 特征 的 简化 图 示 。 在 数据 挖掘 文献 
中 ， 我 们 通常 使 用 术语 案例 或 样本 表示 行 。 在 数据 挖掘 中 ， 通 常 有 许多 不 同类 型 的 特征 ( 属 
性 或 变量 ) ， 即 结构 化 数据 记录 的 不 同 字段 。 在 处 理 不 同类 型 的 特征 方面 ， 并 非 所 有 的 挖掘 
方法 都 一 样 好 。 

图 3-2 MK 3-1 用 更 具体 的 方法 解释 实例 、 特 征 和 结构 化 数据 格式 概念 。 
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给 定 观测 的 特征 值 
图 3-1 使 用 特征 的 对 象 (样本 ) 的 表示 


Ai IBF? 


颜色 {绿色 ， WE, KE, Hit) 


腹部 长 度 ”胸部 长 度 





se ee <7 
SEC 
wi =~ 


Ah ee ) oD = 下 里 大 小 
Oe LX i 


CA Er 
i aaa —— er \ sae IN: 
气门 直径 T 
腿 长 


图 3-2 感 兴 趣 域 的 度量 特征 


表 3-1 实例 、 特 征 和 类 


昆虫 ID 腹部 长 度 触角 长 度 ,昆虫 类 
1 2. TS st 5.5 : 蝗虫 
2 8 9. 1 Ang] sa 
3 0.9 4.7 wi h 
4 | 3.1 ha h 
5 5.4 8.5 Hs 
6 2.9 1.9 whe! 
7 6.1 : 6. 6 sys 
8 0.5 1 蝗虫 
9 a9 6. 6 i]s 
10 8. 1 4.7 Ay E 


3.3 特征 (数据 ) 的 不 同类 型 


特征 有 多 种 类 型 ， 可 以 根据 它们 编码 的 信息 量 加 以 区 分 。 这 里 ,我 们 按照 从 “最 简单 
的 ”( 携 带 最 少 信息 ) 特 征 到 携带 最 多 信息 的 特征 的 顺序 简略 回顾 它们 。 

标 称 变量 : 本 质 上 ， 这 些 只 不 过 是 标识 唯一 实体 的 标号 。 人 名 是 识别 唯一 个 体 的 标 称 标 
号 。 序 号 、 序 列 号 、 跟 踪 码 以 及 其 他 许多 类 似 的 标号 均 属 于 此 类 。 

分 类 变量 : 这 些 是 组 标号 ， 识 别 共享 分 类 所 蕴涵 的 一 些 特 征 的 实体 组 。 除 人 名 之 外 ， 本 
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书 的 所 有 读者 属于 人 类 类 别 。 

序数 变量 : 这 些 是 可 以 合理 地 以 某 种 次 序列 举 的 类 别 。 这 些 类 别 可 以 包括 小 、 中 、 大 ， 
或 者 热 、 暧 、 温 热 、 凉 、 冷 。 注 意 ， 标 称 变量 和 分 类 变量 都 不 是 有 序 的， 它们 只 是 单个 实体 
和 实体 组 的 无 序 标号 。 

区 间 变量 : 这 些 是 有 序 变量 ， 可 以 确定 有 序 类 别 之 间 的 距离 。 然 而 ， 它 们 的 区 间 可 以 是 
非常 任意 的 ， 如 温度 刻度 。 等 距 点 之 间 的 加 法 距离 是 有 意义 的 ， 但 是 比例 没有 意义 。 例 如 ， 
20 度 和 30 度 之 间 ，110 度 和 120 之 问 的 距离 都 是 10 度 。 然 而 ， 无 论 是 摄氏 温度 还 是 华氏 温 
度 ，50 度 都 不 是 25 度 的 2 倍 那么 热 。 

比例 变量 : 这 些 是 区 间 变 量 ， 其 中 比例 是 有 效 的 ， 并 且 具 有 真 零点 。 一 个 例子 是 银行 账 
户 。 零 点 是 空 账户 。10 卢比 和 20 卢比 之 间 的 比例 是 1:2， 而 20 卢比 是 10 卢比 的 2 倍 。100 
卢比 和 200 卢比 之 间 的 比例 也 是 1:2， 而 200 卢比 是 100 卢比 的 2 倍 。 相 同 的 比例 ， 相 同 的 
联系 。 

就 数据 挖掘 算法 而 论 ， 它 们 并 不 区 分 标 称 变量 和 分 类 变量 ， 尽 管 挖掘 者 可 能 很 好 地 区 分 
了 它们 。 挖 掘 算法 对 区 间 变 量 和 比例 变量 之 间 的 差别 也 不 敏感 ， 尽 管控 掘 者 也 可 能 对 它们 之 
间 的 区 别 很 敏感 。 因 此 ， 就 数据 控 掘 算法 而 言 ， 变 量 或 者 是 无 序 标号 ， 或 者 是 有 序 标号 ， 或 
者 是 连续 数 。 这 意味 着 算法 的 敏感 性 可 以 分 别 描述 为 标 称 的 、 序 数 的 或 连续 数 的 。 如 果 算 法 
对 任何 序 都 不 敏感 ， 而 只 对 标号 出 现 的 联合 频率 敏感 ， 则 算法 是 标 称 敏感 的 。 标 号 可 能 实际 
上 是 连续 数 ， 但 是 算法 只 把 它们 (或 更 可 能 是 它们 的 箱 ) 看 作 标 称 标号 。 序 数 敏感 算法 对 什 
出 现 的 顺序 敏感 ， 但 是 推导 值 之 间 的 距离 没有 意义 。 因 此 ， 对 于 这 种 算 潜 ，1 和 2 之 间 存在 
的 间隔 与 100 和 200 之 间 存 在 的 间隔 一 样 显著 。 间 隔 的 大 小 是 不 相关 的 。 数 值 敏感 算法 对 什 
之 间 的 距离 敏感 ， 并 且 对 于 它们 ， 无论 有 没有 值 落 在 中 间 ，1 和 2 之 间 的 距离 与 100 和 200 
之 间 的 距离 是 不 同 的 。 | 


3.4 概念 学 习 与 概念 描述 


数据 挖掘 的 应 用 有 4 种 类 型 。 

分 类 学 习 : 这 里 ， 学 习 模 式 取 一 个 被 分 类 的 实例 集合 ,希望 由 它 学 习 一 种 对 未 知 实例 分 
类 的 方法 。 下 面 给 出 一 些 例子 ， 这 些 例 子 曾 用 于 训练 铝 子 。 图 3-3 和 图 3-4 分 别 给 出 分 类 问 
题 和 它 的 解 。 






{ 这 个 对 象 是 A 关 、 
im | 还 是 B 类 ? pes 
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规则 是 : 如 果 左 边 的 条 
比 右边 的 条 短 ， 则 它 属 
于 A 类 ， 否 则 属于 B 类 。 






图 3-4 铝 子 学 习 的 规则 


MN, SPE! 鸽子 可 以 从 给 它 的 实例 中 学 习 一 些 概 念 。 现 在 该 你 了 。 发 挥 你 的 聪 
明 才 智 ， 解 决 图 3-5 中 的 问题 ， 这 意味 比 铝 子 更 聪明 。 该 问题 的 答案 在 图 右 下 方 给 出 。 









| 久子 的 问题 2 的 答案 : 如 果 和 的 平方 
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| .小 于 100 则 属于 A 类 ， 否 则 属于 B 类 。 
oe 





Pa ere: 
Al 3-5 问题 2 





一 个 实际 应 用 。 考 虑 一 个 为 顾客 提供 贷款 的 银行 。 显 然 ， 银 行 发 现 能 够 预测 哪些 新 顾客 
可 能 是 好 的 投资 对 象 ， 哪 些 不 是 。 使 用 所 收集 的 关于 以 前 顾客 的 数据 ， 银 行 想 知道 那些 使 得 
顾客 成 为 好 的 投资 对 象 或 不 良 投资 对 象 的 属性 。 所 需要 的 是 一 个 规则 集 ， 将 数据 划分 成 互 斥 
的 两 组 一 一 一 组 是 好 的 投资 对 象 ， 另 一 组 是 不 良 投资 对 象 。 这 种 规则 称 为 分 类 规则 (classifi- 
cation rule) ， 因 为 它们 将 给 定 的 数据 分 为 固定 数目 的 组 。 老 顾客 的 数据 (他 们 所 属 的 组 是 已 
知 的 ) 称 为 训练 集 ( training set) ， 由 它 发 现 规则 。 之 后 ， 用 分 类 规则 来 发 现 新 顾客 属于 哪 
个 组 。 

关联 学 习 : 搜索 特征 之 间 的 任意 关联 ， 而 不 仅仅 是 预测 特定 类 的 特征 。 例 如 ， 考 虑 如 表 
3-2 所 示 的 选 自 历史 销售 数据 的 超市 销售 记录 。 通 常 ， 这 种 数据 的 大 小 从 SOKB (研究 用 ) 记 
录 到 数 TB。 向 数据 挖掘 提出 的 典型 问题 是 “通常 ， 哪 些 产 品 会 被 二 起 购买 ?答案 在 数据 中 ， 
如 果 我 们 只 能 看 到 数据 的 话 。 
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表 3-2 超市 销售 记录 的 实例 





日 期 和 事务 ID 鱼 AG 大 米 Wa ook... 
4/3/05 -1 N Y y Pi a E donee 
4/3/05 -2 Y N N FA a e e a Msc ACEO 





RX: 聚 类 搜索 属于 同一 组 的 实例 。 分 组 基于 特征 的 相似 性 。 根 据 我 们 选取 的 特征 (和 
相似 性 度量 ) ， 我 们 可 以 把 项 的 集合 划分 成 不 同 的 组 群 。 图 3-6 显示 了 两 个 这 样 的 组 群 (有 时 
可 能 得 到 意 想 不 到 的 结果 ) ， 





3-6， 基 于 相似 性 的 自然 组 群 


聚 关 算法 可 以 应 用 于 许多 领域 ， 例 如 : 

* 党 销 : 给 定 包含 顾客 特征 和 以 前 购买 记录 的 大 型 数据 库 ， 发 现 具有 相似 行为 的 顾客 

组 群 。 

。 生物 学 : 给 定 动 植物 的 特征 ， 对 它们 分 类 。 

e 图 书馆 : 给 图 书 分 类 。 

。 保险: 识别 高 于 平均 索赔 率 的 汽车 保险 持 有 者 ， 识 别 欺 诈 。 

。 城市 规划 : 根据 房屋 的 类 型 、 价 值 和 地 理 位 置 ， 识 别 房屋 的 组 群 。 

LRA: 对 观察 到 的 地 震 震 中 聚 类 ， 识别 危险 地 区 。 

e WWW: 文档 分 类 ， 聚 类 Web 日 志 数 据 ， 发 现 相 似 的 访问 模式 。 

数值 预测 : 在 数值 预测 中 ， 预 测 的 输出 不 是 离散 类 ， 而 是 数值 量 。 

无 论 学 习 涉 及 的 类 型 是 什么 ， 我们 把 要 学 习 的 内 容 称 作 概 念 ， 学 习 模 式 产生 的 输出 称 为 
概念 描述 。 


3.5 数据 挖掘 的 输出 一 一 知识 表示 


3.5.1 分 类 学 习 算法 的 知识 输出 


在 机 融 学 习 中 ， 应 用 两 种 方法 来 学 习 分 类 。 它 们 是 基于 神经 网 络 的 方法 和 基于 归纳 的 方 
法 。 两 种 方法 都 有 各 自 的 优 缺 点 。 

决策 树 : 决策 树 是 一 种 基于 知识 表示 的 树 ， 用 于 表示 分 类 规则 。 叶 节点 代表 类 标号 ， 而 
其 他 节点 代表 与 被 分 类 对 象 相 关联 的 属性 。 树 的 每 个 分 支 代 表 对 应 属性 节点 的 每 个 可 能 什 。 
图 3-7 显示 了 一 棵 典型 的 决策 树 。 该 树 对 应 于 更 尾 植物 ( Iris) 的 3 个 物种 的 分 类 。 分 类 基于 
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图 3-7 REWRITE 


一 旦 使 用 训练 数据 集 创建 了 决策 树 ， 就 可 以 使 用 它 来 对 新 的 对 象 进行 分 类 。 为 了 进行 分 
类 ， 我 们 从 树 的 根 节点 开始 ， 沿 着 与 该 对 象 属性 值 相关 联 的 分 支 向 下 ， 直到 到 达 代 表 该 对 象 
类 的 叶 节 点 为 止 。 

显然 ， 对 于 一 个 训练 实例 集 ， 可 能 产生 很 多 决策 树 。 基 本 思想 是 挑选 能 够 对 最 多 的 未 知 
样本 正确 分 类 的 决策 树 (这 是 归纳 过 程 的 本 质 )。 一 种 做 法 是 由 训练 集 产生 所 有 可 能 的 决策 
树 ， 从 中 选择 最 简单 的 决策 树 。 作 为 替代 ， 可 以 用 这 样 的 方法 构造 树 ， 使 得 结果 树 是 最 佳 
的 。 在 ID3( Quinlan 的 决策 树 归 纳 -3 ) , 他 们 使 用 信息 理论 度量 使 用 特定 属性 作为 节点 的 “ 信 
ifm”, Witham Rew EAE. 

尽管 决策 树 已 经 成 功 地 用 于 大 量 算法 ， 但 是 它们 也 有 一 些 缺 点 。 第 一 ， 即使 对 于 小 型 训 
练 集 ， 决 策 树 也 可 能 相当 大 ， 因 此 难以 理解 。Quinlan[ 1] 指 出 ， 无 论 决策 树 的 功能 多 么 好 ， 
能 否 用 决策 树 这 样 的 难以 理解 的 结构 描述 知识 仍然 是 有 问题 的 。 第 二 ， 当 检 验 数 据 集 中 对 象 
的 属性 具有 缺失 值 时 ， 树 的 性 能 可 能 有 问题 。 此 外 : 树 节点 中 属性 的 次 序 可 能 对 性 能 具有 负 
HEADE 

决策 树 的 主要 优点 是 它 的 执行 效率 ， 这 主要 归结 于 它 的 简约 表示 和 执行 能 力 。 然而 ， 它 
们 缺乏 语义 网 络 和 知识 未 的 其 他 一 阶 谓词 逻辑 方法 的 语义 表达 能 力 。 

神经 网 络 : 让 机 器 模拟 人 类 的 智能 行为 是 人 工 智 能 研究 者 的 长 期 目标 。 人 工 智能 研究 者 
从 多 方面 获得 灵感 ， 如 心理 学 、 认 知 科学 和 神经 计算 (neurocomputing) 。 

神经 网 络 是 稠密 的 、 互 联 的 处 理 单元 组 成 的 网 络 ， 通 过 规则 调整 单元 之 间 连 接 强 度 ， 以 
响应 外 部 提供 的 数据 。 网 络 的 总 体 行为 由 它 的 连接 性 ， 而 不 是 由 任何 单元 的 具体 操作 确定 。 
神经 网 络 的 不 同 拓扑 结构 适合 不 同 的 任务 。 例 如 ，Hopfield 网 络 适 用 于 优化 问题 ， 多 层 感知 
华 适 用 于 分 类 问题 ， 而 Kohonen 网 络 适 用 于 编码 。 图 3-8、 图 3-9 和 图 3-10 显示 了 这 些 
网 络 。 \ 
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尽管 神经 网 络 看 起 来 是 一 个 很 吸引 人 的 概念 ， 但 是 它 有 许多 缺点 。 第 一 ， 与 其 他 学 习 方 
法 相 比 ， 学 习 过 程 非常 慢 。 对 于 用 户 来 说 ， 学 习 得 到 的 知识 很 难 解释 (与 使 用 决策 树 的 缺点 
一 样 )。 很 难 将 用 户 干 预 结合 到 学 习 过 程 中 ， 而 这 对 数据 挖掘 应 用 来 说 是 需要 的 。 然 而 ， 对 
于 现实 世界 中 的 噪声 数据 ， 神 经 网 络 比 符号 学 习 技术 (基于 决策 树 的 规则 归纳 ) 的 性 能 好 。 

规则 : 规则 可 能 是 最 稼 见 的 知识 表达 形式 。 规 则 是 一 个 条 件 霹 句 ， 对 特定 的 条 件 集 指 明 
动作 ， 通 常 表示 为 XY。 动 作 了 通常 称 为 规则 的 后 件 ( consequent) ， 而 条 件 集 X 是 规则 的 前 
4} (antecedent) 。 规 则 集 是 下 -THEN 语句 的 无 结构 组 。 

对 于 表 3-3 中 的 数据 ， 导 出 的 规则 是 : 

IF age = “S30” AND student = “no” THEN buys_computer = “no” 

IF age = “S30” AND student = “yes” THEN buys_computer = “yes” 

IF age = “31-40” THEN buys_computer = “yes” 

IF age = “>40” AND credit_rating = “excellent” THEN buys _computer 

IF age g age AND credit_rating = “fair” THEN buys_computer = “no” 


表 3-3 产生 规则 的 数据 


Age Income Student 


Credit- rating Buys- computer 
<30 high no fair no 
<30 high no excellent no 

31 -40 high no fair yes 
>40 medium no fair yes 
>40 low yes fair yes 
>40 low yes excellent no 

31 -40 low yes excellent yes 
<30 medium no fair no 
<30 low yes fair yes 
>40 medium yes fair yes 
<30 medium yes excellent yes 

31 -40 medium no excellent yes 

31 -40 high yes fair yes 
>40 medium no excellent no 


规则 作为 一 种 知识 表示 方法 流行 的 主要 原因 是 它 的 形式 简单 。 它 们 容易 解释 ,因为 不 像 
决策 树 和 神经 网 络 ， 它 们 是 非常 直观 和 目 然 的 知识 表示 形式 。 此 外 ， 规 则 系统 是 无 结构 的 ， 
不 那么 严格 ， 这 在 基于 知识 的 系统 开发 的 早期 阶段 是 一 个 优点 。 

但 是 ， 用 规则 表示 知识 也 有 许多 缺点 。 规 则 缺乏 变化 并 且 是 无 结构 的 ， 它 们 的 格式 不 足 
以 表示 许多 类 型 的 知识 ， 如 因果 知识 。 随 着 系统 中 规则 数量 的 增加 ， 系 统 的 性 能 降低 ， 并 且 
系统 越 来 越 难 维护 和 修改 。 不 能 向 系统 随意 地 添加 新 的 规则 ， 因 为 它们 可 能 与 系统 中 已 有 的 
规则 矛盾， 导致 错误 的 结论 。 基 于 规则 的 系统 的 性 能 退化 不 是 适度 的 。 

如 果 不 是 不 可 能 的 话 ， 基 于 规则 的 表示 缺乏 结构 也 使 得 它 很 难 对 现实 世界 建 模 。 因 此 ， 
希望 有 能 够 进行 部 分 推理 并 且 随 规则 数量 增加 性 能 缓慢 降低 的 更 有 组 织 和 结构 化 的 知识 
表示 。 


3.5.2 聚 类 学 习 算 法 的 输出 


在 使 用 聚 类 算法 从 实例 学 习 时 ， 输 出 采用 图 表 形 式 展示 实例 如 何 划 分 到 簇 中 。 
RER: 这 里 ， 我 们 将 每 个 对 象 与 一 个 簇 号 相关 联 。 尽 管 大 部 分 算法 只 允许 每 个 对 象 属 
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TPR, 但 是 某 些 算法 以 一 定 的 概率 而 不 是 无 条 件 地 将 实例 关联 到 簇 。 在 这 种 情况 下 ， 每 
个 实例 有 一 个 属于 每 个 簇 的 概率 或 隶属 度 ， 如 表 3-4 所 示 。 


表 3-4 EREE 
1 2 3 1 2 3 
a 0.4 0.1 0.5 e SOA 0.2 0.4 
b 0.1 0.8 0.1 f 0. 1 0.4 0.5 
c 0.3 0.3 0.4 g 0.7 PON Z ne 
d 0:1 0. 1 0.8 h 0.5 0.4 0.1 


Venn 图 : 有 些 聚 类 算法 允许 一 个 实例 以 全 隶属 函数 属于 多 个 篮 ( 见 图 3-11) 。 因 此 ， 这 
种 图 将 实例 安排 在 二 维 平 面 , :并 绘制 代表 每 个 徐 的 重 秋 子 集 。 


图 3-11 显示 艇 隶属 度 的 Venn 图 


树 状 图 : 许多 算法 产生 图 3-12 所 示 的 簇 的 层次 结构 ， 使 得 顶层 实例 空间 被 划分 成 几 个 
徐 ， 每 个 复 又 在 下 一 层 被 划分 成 子 徐 ， 如 此 下 去 。 这 种 聚 类 用 树 状 图 表示 (dendron 在 希腊 语 
中 是 树 的 意思 ) ’ 它 基 本 上 上 是 一 棵 层次 结构 的 树 O 
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图 3-12 树 状 图 
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目 组 织 映 射 : Kohonen 的 目 组 织 映射 (SOM)[2] 是 一 种 自动 安排 高 维 统计 数据 的 工具 。 
该 映射 试图 使 用 一 个 受 限 的 模型 集合 ， 以 最 精确 的 形式 表示 输入 样本 。 模 型 在 映射 栅 格 中 也 
是 有 序 的 ， 使 得 相似 的 模型 相互 靠近 ， 而 不 相似 的 模型 相互 远离 。SOM 在 聚 类 、 抽 象 和 通 
过 维 归 约 可 视 化 方面 是 有 用 的 。SOM 的 非 监 督学 习 模 式 使 得 它 适用 于 不 能 标记 输入 数据 的 
应 用 。 图 3-13 显示 了 关于 涉及 娱乐 主页 的 聚 类 的 SOM, 
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图 3-13 10 000 个 涉及 娱乐 主页 的 SOM BREF 
生物 科学 家 是 聚 类 算法 的 主要 使 用 者 。 伦 敦 的 一 位 内 科 医 生 John Snow 在 地 图 上 绘制 了 


19 世纪 50 年 代 霍 乱 爆发 时 死亡 者 的 位 置 ( 见 图 3-14) 。 结果 显示 病例 聚集 在 某 些 存在 被 污 
的 水 井 的 十 字 路 口 附近 一 一 这 样 就 揭示 了 问题 和 解决 方案 。 或 许 ， 这 是 生物 科学 聚 类 应 用 的 


开始 。 
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图 3-14 和 霍乱 的 位 置 


3.5.3 关联 规则 的 输出 


给 定 一 个 事务 集 ， 其 中 事务 是 项 (商品 ) 的 集合 。 关 联 规则 是 形 如 X 一 了 的 表达 式 ， 其 中 
X 和 Y 了 是 项 集 。 关 联 规则 的 一 个 例子 是 “包含 啤酒 的 事务 30% 也 包含 尿布 ; 所 有 事务 的 2% 
都 包含 这 两 种 商品 ”这 里 ，30% 是 该 规则 的 置信 度 ， 而 2% 是 该 规则 的 支持 度 。 问 题 是 找 出 
满足 用 户 定 义 的 最 小 支持 度 和 最 小 置信 度 约束 的 所 有 事务 规则 。 表 3-5 显示 了 一 个 事务 集 ， 
而 表 3-6 显示 了 导出 的 关联 规则 。 


表 3-5 事务 数据 (人 ) 


RecordID Age Married NumCars 
100 23 No 1 
200 25 Yes 1 
300 29 No 0 
400 34 Yes 2 
500 38 Yes 2 


# 3-6 关联 规则 (最 小 支持 度 =40% ， 最 小 置信 和 度 =50%) 
规则 (样本 ) 支持 度 置信 度 


(Age: 30 -39 )and( Married; Yes) 三 (Num Cars; 2) 40% 100% 
(Num Cars: 0-1) =( Married: No) 40% 100% 
3.5.4 用 于 数值 预测 的 树 的 输出 


用 于 数值 预测 的 树 基本 上 是 决策 树 与 回归 的 结合 。 我 们 知道 ， 回 归 是 计算 预测 数值 量 的 
表达 式 的 过 程 。 有 两 种 使 用 回归 的 树 ， 它 们 是 : 

回归 树 : 每 个 树叶 预测 一 个 数值 量 的 “决策 树 ”"。 预 测 值 是 到 达 该 树叶 的 训练 实例 的 平均 值 。 

模型 树 : 叶 节 点 上 具有 线性 回归 模型 的 “回归 树 ”"。 这 些 线性 模型 近似 于 非 线 性 的 连续 
函数 。 

BIF: CPU PERE: 给 出 CPU 性 能 数据 集 (cpu. arff) ， 其 中 独立 变量 如 下 : 

。MYCT: 机 器 周期 ， 单 位 为 纳 秒 ( 整 型 ) 

。MMIN: 最 小 主 存 ， 单 位 为 千 字 节 ( 整 型 ) 

。MMAX: 最 大 主 存 ， 单 位 为 千 字 节 ( 整 型 ) 

。CACH: 高 速 缓存 ， 单 位 为 千 字 节 ( 整 型 ) 

。CHMIN: 最 小 通道 ， 单 位 为 单元 ( 整 型 ) 
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eCHMAX: 最 大 通道 ;单位 为 单元 ( 整 型 ) 
而 PERF 是 性 能 指数 ， 被 看 作 独 立 变量 。 
PERF: 公布 的 性 能 指数 ( 整 型 ) 


# 3-7 CPU 性 能 测量 


MYCT MMIN MMAX CACH CHMIN CHMAX PERF 
125 256 6000 256 16 128 199 
29 8000 32000 32 8 32 253 
29 8000 32000 32 8 32 253 
29 8000 32000 32 8 32 253 
29 8000 16000 32 8 16 132 
23 16000 32000 64 16 32 381 
23 16000 64000 64 16 32 749 
125 2000 8000 0 2 14 Al 
480 512 8000 32 0 0 47 
480 1000 4000 0 0 0 25 
上 面 数据 的 回归 方程 是 : 


PERF = =55.9 +0.0489MYCT'+0.0153 + NMIN +0. 0056 x MMAX +0. 6410CASH + 
( -0.27) CHMIN +1. 480 + CHMAX 


该 数据 的 回归 树 在 图 3-15 中 给 出 。 
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(24/19.2%) 
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(0.5, 8.5) 
Thee > 12000 
pet 59.3 281 492 
(24/16.9%) (11/56%) (7/53.9%) 
< 550 > 550 


37.3 18.3 
(37/8.18%) (37/8.18%) 


图 3-15 回归 树 
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该 数据 的 模型 树 在 图 3-16 中 给 出 。 显 示 回 归 方 程 的 表 在 图 的 右 下 角 。 


<= 7.5 >75 
S 8.5 > 8.5 


< 28000 > 28000 
LM4 LMS LM6 
(50/22.1%) (21/45.5%) (23/63.5%) 
< 4250 > 4250 


LM1 PRP = 8.29 + 0.004 MMAX + 2.77 CHMIN 


LM2 PRP = 20.3 + 0.004 MMIN - 3.99 CHMIN + 0.946 CHMAX 


LM3 PRP = 38.1 + 0.012 MMIN : 
oe: LM4 PRP = 19.5 + 0,002 MMAX + 0.698 CACH + 0.969 CHMAX 
LMSPRP = 285 — 1.46 MYCT + 1.02 CACH- 9.39 CHMIN 
po LM6 PRP = -65.8 + 0.03 MMIN = 2.94 CHMIN + 4.98 CHMAX 





(0.5, 8.5) 
/ LM2 LM3 
(26/6.37%) (24/14.5%) 
图 3-16 模型 树 


3.5.5 ”基于 实例 的 学 习 和 知识 表示 


基于 实例 的 学 习 技 术 通 过 为 每 个 类 保存 典型 的 属性 实例 而 工作 。Aha、Kibler 和 
Albert[3] 和 定义 了 基于 实例 的 学 习 算 法 具有 如 下 三 个 特点 : 

一 个 相似 度 函 数 : 告诉 算法 两 个 实例 的 接近 程度 。 尽 管 这 看 起 来 容易 ， 但 是 选择 相似 度 
滑 数 的 工作 相当 复杂 ， 特 别 是 当 某 些 输入 是 枚 举 类 型 时 尤其 困难 。 例 如 ， 如 果 我 们 试图 对 人 
进行 匹配 ， 并 且 一 个 属性 是 头发 颜色 ,对 于 头发 颜色 ， 距 离 的 意思 是 什么 ? 

一 个 “典型 "实例 选择 函数 : 告诉 算法 保存 哪些 实例 。 如何 知道 哪些 实例 是 典型 的 ， 哪 
些 实例 不 是 典型 的 ? 

一 个 分 类 函数 : 该 函数 就 是 对 给 定 新 的 实例 ， 决 定 如 何 将 它 联 系 到 学 习 过 的 实例 的 函 
数 。 例 如 ， 该 函数 可 以 是 位 置 最 近 的 实例 。 

基于 实例 的 学 习 (IBL) 有 许多 其 他 名 称 ， 有 一 些 基 本 方法 的 变种 。Aha、Kibler 和 Albert 
在 他 们 的 文章 中 提出 了 三 种 : 

IBL1 : 存放 所 有 实例 并 且 只 找 出 最 邻近 的 实例 一 一 该 实例 的 类 就 是 最 邻近 的 实例 的 类 。 
然而 ， 这 需要 存放 大 量 实例 ， 可 能 需要 很 大 的 空间 。 

IBL2 : 类 似 于 IBL1, 但 是 丢弃 训练 集中 已 经 被 正确 分 类 的 实例 。 这 节省 一 些 存储 空间 。 

IBL3; 像 BL2 一 样 ， 但 是 对 数据 做 某 种 假设 ， 并 使 用 统计 方法 “排除 ”不 相关 或 噪声 
实例 。 

此 外 ， 可 以 使 用 k- 最 近邻 (k-mn) 方 法 扩展 上 述 方法 [4，5，6] 。 我 们 可 以 考虑 一 组 最 邻 
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近 的 点 ,使 用 “投票 ”机 制 在 它们 中 间 选 择 ， 而 不 是 只 考虑 单个 最 邻近 的 点 并 根据 它 来 分 类 。 
基于 实例 的 学 习 与 神经 网 络 具 有 相同 的 问题 ， 如 系统 的 “Tweakabilitys ”一 一 由 于 必须 建 
立 上 面 所 讨论 的 三 个 函数 ， 并 找 出 最 优 的 。 它 们 也 存在 “可 提取 性 ( Extractability) ”问题 ， 因 
为 它 基 本 上 是 一 种 非 结 构 化 的 学 习 方 法 一 一 它 只 是 存放 典型 值 ， 而 不 对 数据 做 任何 处 理 。 没 
有 任何 “概念 "以 可 读 的 形式 产生 : | 
其 他 问题 是 : 即使 对 于 优化 的 IBL3 和 IBL3， 有 时 它们 也 需要 相当 大 的 存储 空间 。 这 本 
身 不 是 问题 ,但 是 可 能 影响 最 邻近 的 点 的 快速 搜索 。 
” 男 一 方面 ,它们 容易 检验 ， 概 念 上 简单 ， 并 且 能 够 以 复杂 的 方式 划分 空间 。 
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O EHE: Tweakability 是 指 无 法 用 简洁 的 方式 来 设置 对 学 习 算法 具有 显著 影响 的 一 些 因子 ， 而 需要 反复 调整 。 


第 4 章 ”决策 树 一 一 分 类 和 回归 树 


4.1 引言 


分 类 树 是 使 用 树 结构 算法 将 数据 分 成 离散 类 的 方法 。Breiman[ 1] 在 20 世纪 80 年 代 早期 
创造 了 该 术语 。 该 技术 在 医疗 、 市 场 调查 统计 、 营 销 和 顾客 关系 方面 得 到 了 很 好 的 应 用 。 例 
如 ， 一 个 树 结构 分 类 器 使 用 血压 、 年 龄 和 先前 的 治疗 情况 将 心脏 病 患者 分 成 危险 和 不 危险 两 
类 。 为 一 种 工具 可 能 使 用 与 年 龄 相关 的 变量 和 其 他 人 口 统计 量 决定 谁 应 该 出 现在 邮件 发 送 清 
单 上 。 预 测 对 直接 邮寄 广告 的 反应 和 确定 控制 电信 业 顾 客流 失 的 方法 都 是 具体 行业 的 应 用 。 
使 用 分 类 工具 的 应 用 不 胜 枚 举 。 

决策 树 的 主要 作用 是 揭示 数据 中 的 结构 化 信息 。 为 了 解释 决策 树 分 类 的 基本 思想 ， 考 虑 假 
想 的 医疗 数据 。 观察 表 4-1， 并 不 容易 看 出 数据 中 响应 变量 “药物 ”( 也 称 为 目标 变量 或 类 变量 ) 
和 解释 ( 预测) 变量 (性 别 ， 年 龄 ， 血 压 ) 之 间 的 联系 ， 尽 管 对 于 小 数据 集 ， 你 或 许 能 够 立即 从 
中 得 到 一 些 结论 。 如 果 将 该 数据 集 提 供给 决策 树 软件 ， 它 可 能 产生 一 棵 图 4-1 所 示 的 树 。 





表 4-1 医疗 数据 
0 性 别 年 龄 血压 药物 
1 男 20 正常 A 
2 t 73 正常 B 
3 男 37 高 A 
4 Ws 33 低 B 
5 女 48 高 A 
6 男 29 正常 A 
7 女 52 正常 B 
8 男 42 低 B 
9 E: 61 正常 B 
10 女 30 正常 A 
11 女 26 低 B 
12 男 54 高 A 
高 低 
正常 
= 40 > 40 


图 4-1 医疗 数据 的 决策 树 
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可 以 看 出 ,该 树 汇总 了 数据 ， 并 揭示 了 其 中 隐藏 的 结构 。 由 此 我 们 可 以 得 到 如 下 处 方 
规则 : 

如 果 血 压 高 ， 则 采用 药物 A。 

如 果 血 压低 ， 则 采用 药物 B。 

如 采血 压 正 第 并 且 年 龄 小 于 或 等 于 40， 则 采用 药物 A， 否 则 采用 药物 B。 

在 实际 开具 医疗 处 方 时 ， 内 科 医 生 可 能 使 用 多 个 变量 作为 预测 变量 ， 从 而 准确 诊断 出 疾 
病 。 在 大 部 分 情况 下 ， 他 的 诊断 是 基于 书籍 和 杂志 上 记录 的 事实 和 他 过 去 处 理 类 似 案例 的 经 
验 。 基 于 对 病人 的 观察 ， 执业 医师 可 以 根据 在 以 往 经 验 中 学 到 的 知识 使 用 上 面 所 述 的 方法 转 
换 成 规则 。 如 果 被 大 量 数据 (案例 ) 支持 ， 这 些 规则 将 成 为 进入 医疗 部 门 新 医生 的 十 分 有 用 
的 指南 。 其 中 一 些 规则 甚至 可 能 成 为 试图 发 现 这 些 规则 的 理论 基础 的 新 一 代 科学 家 的 研究 
课题 。 

在 前 面 介绍 的 这 个 例子 中 ， 没 有 训练 误差 ;我 们 产生 的 规则 至 少 对 上 述 数据 都 是 100% 
正确 。 然而 ， 对 于 实际 数据 ， 我 们 多 半 不 能 得 到 具有 100% 准确 率 和 高 支持 度 的 规则 。 支 持 
度 是 指 满足 规则 的 数据 点 所 占 的 百分比 。 我 们 从 该 例 得 到 的 规则 和 对 应 的 准确 率 和 支持 
度 是 : 

如 果 血 压 高 ， 则 采用 药物 A( 准确 率 100% ， 支 持 度 3/12), 

如 果 血 压低 ， 则 采用 药物 BC 准确 率 100% ， 支 持 度 3/12) , 

如 果 血 压 正 常 并 且 年 龄 小 于 或 等 于 40， 则 采用 药物 A( 准确 率 100% | LRE 3/12) 。 

如 果 血 压 正常 并 且 年 龄 大 于 40， 则 采用 药物 B( 准 确 率 100% ， 支 持 度 LZ) 

为 了 更 好 地 理解 “错误 率 ” 和 “支持 度 ” 的 概念 ， 考 虑 图 4-2 所 示 的 假想 的 树 。 为 了 方便 
稍 后 进一步 解释 ， 假 设 我 们 不 再 进一步 分 裂 节点 。 根据 数据 点 的 类 值 进行 多 数 表 决 ， 左边 的 
PREN A 节点 ” ,右边 的 节点 标记 为 “B 节点 ”。 这 就 产生 了 规则 错误 率 和 支持 度 的 


A> 


4.0 
错误 率 = 5/120 ce X > 60 错误 率 = 2/120 


准确 率 = 115/120 4h 准确 率 = 58/60 
支持 度 = 115/180 支持 度 = 58/180 
A 节 点 BPS 
115: A 58: A 
5:B 2: B 


图 4-2 具有 不 同 准确 率 和 支持 度 的 规则 


现在 ， 我 们 考虑 决策 树 (或 分 类 /回归 树 ) 算 法 用 于 树 生长 的 策略 。 主 要 问题 是 ; 

1) 选 择 分 裂变 量 的 标准 。 

2) 找 到 被 选择 的 变量 的 分 裂 点 的 标准 (连续 变量 情况 ) 。 

3 ) 确 定 何 时 停止 树 生长 过 程 的 标准 。 

ERER, 我们 讨论 几 个 算法 ,它们 的 主要 差别 是 用 来 处 理 上 述 问题 1 和 2 的 标准 不 
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同 。 如 采 目 标 变量 (也 称 为 响应 变量 或 类 变量 ) 是 标 称 / 分 类 变量 ( 如 处 方药 ) ， 则 称 该 树 为 分 
Š #4 ( classification tree); MURA 标 变量 是 连续 的 ( On“ Wo A” ) ， 则 称 该 树 为 回归 树 ( regression 
tree) 。 预 测 变 量 也 可 以 一 般 地 分 为 标 称 的 或 连续 的 ， 并 且 本 章 只 考虑 标 称 / 分 类 变量 。 处 理 
连续 值 变 量 在 第 5 章 讨 论 ， 因 为 大 部 分 实际 算法 确实 在 构造 树 之 前 先 将 连续 值 变量 转换 成 具 
有 离散 层次 (或 区 间 ) 的 变量 。 


4.2 构造 分 类 树 


4.2.1 用 于 标 称 属性 的 ID3 算法 


ID3 代表 归纳 决策 树 (induction decision-tree) 版 本 3， 它 是 一 种 用 来 由 数据 构造 决策 树 的 
递归 过 程 。 我 们 试探 性 地 选择 一 个 属性 放置 在 根 节点 ， 并 对 该 属性 的 每 个 值 产 生 一 个 分 支 ， 
这 样 ; 分 裂 根 节 点 上 的 数据 集 凡 并 移 到 子女 节点 ， 产 生 一 棵 局 部 树 (partial tree) 。 对 该 划分 
的 质量 进行 评估 。 对 其 他 属性 重复 该 过 程 。 每 个 用 于 划分 的 属性 产生 一 棵 局 部 树 。 然 后 ， 根 
据 局 部 树 的 质量 ， 选 择 一 棵 局 部 树 。 这 实质 上 意味 选择 一 个 划分 属性 。 换 言 之 ,我 们 根据 哪 
个 属性 会 得 到 “好 的 ”局 部 树 来 选择 一 个 属性 。 对 选 定 的 局 部 树 的 每 个 子女 节点 重复 该 过 程 。 
这 是 一 个 递归 过 程 。 如 果 一 个 节点 土 的 所 有 实例 都 具有 相同 的 类 则 停止 局 部 树 的 生长 。 

现在 ,给 定 一 个 具有 不 同类 的 实例 集 ， 我 们 需要 确定 使 用 哪个 属性 进行 划分 的 标准 。 考 
IER 4-2 所 示 的 气象 数据 。 由 于 有 4 个 属性 ， 因 此 有 4 棵 可 能 的 局 部 树 ， 在 顶层 产生 的 树 如 
图 4-3a ~ 图 4-3d 所 示 。 哪 一 棵 局 部 树 最 好 ? 叶 节 点 上 显示 了 “yes” 和 “no” 类 的 数目 。 只 具有 
一 个 类 (“yes" 或 “no”) 的 叶 节 点 不 必 再 进一步 划分 ， 并 且 到 该 分 支 的 递归 过 程 将 结束 。 由 于 
我 们 寻找 小 树 ， 因 此 希望 停止 划分 尽 可 能 早 地 发 生 。 如 果 我 们 具有 节点 纯度 的 度量 ,那么 应 
当选 择 产生 最 纯 子 女 节 点 的 属性 。 观察 一 下 图 4-3a ~ 图 4-3d,， 并 仔细 思索 你 认为 哪个 属性 
是 最 佳 选 择 。 \ 

我 们 需要 一 种 度量 来 度量 节点 的 纯度 ， 并 需要 一 种 度量 告诉 我 们 根据 一 个 变量 的 属性 值 
将 一 个 不 纯 的 节点 上 的 数据 划分 到 其 子女 后 ， 纯 度 提高 了 多 少 。 最 为 广泛 使 用 的 度量 是 信 
ERG o 

表 4-2 气象 数据 集 (都 是 标 称 属性 ) 





序号 天气 a 湿度 有 风 打 网 球 
1 H 热 高 无 No 
2 OA ” 热 高 有 No 
3 多 云 热 高 无 Yes 
4 雨 温暖 高 无 Yes 
5 雨 Ut HE 正常 无 Yes 
6 雨 凉爽 正常 有 No 
7 多 云 凉爽 正常 有 Yes 
8 晴 温暖 高 无 No 
9 H 凉爽 正常 无 Yes 

10 雨 温暖 正常 无 Yes 
11 晴 温暖 正常 有 Yes 
12 多 云 温暖 高 有 Yes 
13 多 云 热 正常 无 Yes 
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图 4-3a) JE SRA” KS 


图 4-3c) SEA A” Sal op 图 4-3d)” 基 于 “湿度 ”划分 


4.2.2 信息 论 和 信息 灶 


信息 论 (information theory ) 是 数学 中 的 概率 论 和 数理 统计 的 一 个 分 支 ， 用 于 处 理 信息 和 
信息 炉 、 通 信 系统 、 数 据 传 输 和 率 失真 理论 、 密 码 学 、 信 品 比 、 数 据 压缩 和 相关 课题 。 不 要 
将 它 与 图 书馆 学 和 信息 科学 或 信息 技术 相 混 淆 。 | 

Claude Shannon(1916 一 2001 ) 被 称 为 信息 论 之 父 。 他 的 理论 “将 信息 传输 看 作 一 种 统计 
学 现象 ， 并 且 为 通信 工程 师 提供 了 一 种 方法 ， 使 用 普通 的 二 进 制 位 流 确 定 通信 信道 的 容 
量 。 该 理论 的 信息 传输 并 不 "关注 信息 或 消息 内 容 本 身 ”， 尽 管 与 信息 论 互 补 的 学 科 关 注 内 
容 本 号 ,考虑 服从 保 真 标准 的 消息 的 有 损 压 缩 信息 论 的 这 两 个 门派 联合 在 一 起 ， 并 且 通 过 
信息 传输 定理 或 源 信道 分 离 定理 相互 印证 。 信 息 传输 定理 证 实 ; 在 许多 背景 下 ， 使 用 比特 作 
为 信息 的 通用 流通 是 正确 的 。 

精 \entropy) 是 源 于 热力 学 的 概念 ， 但 是 随后 出 现 信息 论 中 。 这 两 个 概念 确实 具有 某 
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共同 点 ， 尽 管 透彻 理解 这 两 个 领域 之 后 才能 发 现 其 中 的 区 别 。 

# J) =F JA ( thermodynamic entropy)S( 通 常 在 化 学 和 热力 学 中 简称 业 ) 是 物理 系统 中 不 能 用 
来 做 功 的 能 量 的 一 种 度量 。 它 也 是 系统 无 序 性 的 一 种 度量 。 

在 构造 决策 树 的 过 程 中 ， 灶 定 义 为 无 序 性 度量 很 合适 。 我 们 想 选 择 一 个 属性 划分 数据 ， 
使 得 子女 节点 上 数据 的 类 值 (在 我 们 的 例子 中 ， “yes” IX“ no” ) 大 部 分 都 相同 ( 低 无 序 性 ) 。 如 
条 一 个 记 点 上 的 数据 的 类 值 在 可 能 的 类 值 上 均匀 分 布 ， 则 称 节点 的 箭 (无 序 性 ) 最 大 。 如 果 
一 个 节点 上 的 数据 的 类 值 对 于 所 有 数据 都 相同 ， 则 科 最小。 通过 分 裂 ， 我 们 希望 得 到 尽 可 能 
纯 的 节点 。 这 相当 于 降低 系统 的 箭 :; 

因此 ， 我 们 需要 一 个 具有 如 下 性 质 的 信息 箭 公式 | 

1) 当 一 个 节点 上 的 "yes” 或 no” HP RAS, AAMAS MRR ERIM, By 
点 仅 包 含 类 为 “yes” 的 数据 点 或 仅 包含 类 为 “no” 的 数据 点 。 

2) 当 一 个 节点 上 的 “yes” 和 “no"” 的 个 数 相等 时 ， 信 息 焙 最 大 。 这 样 的 节点 是 最 不 纯 的 
To 

此 外 ， 该 度量 应 当 可 以 用 于 多 个 类 的 情况 ， 而 不 仅仅 是 两 个 类 的 情况 。 今 人 惊奇 的 是 ， 
结果 只 有 一 个 函数 满足 这 些 性 质 ， APPR VES BB Claude E. Shannon 将 其 定义 为 : 

entropy (Pi, P2, **, Pa) = —p,log,p, —plog,p, — --- —p,log,p, (4.1) 

减 号 是 因为 分 数 pl ，p,，…，p, ABORT, ASCP ATE. GE, MRC 2 为 底 ， 
从 而 业 的 单位 是 位 (bit) 一 一 计算 机 中 常用 的 位 。 炉 公式 中 的 参数 用 分 数 表 示 ， 其 和 为 1。 
例如 





info( [2, 3, 4]) =entropy(2/9, 3/9, 4/9) 
一 般 地 ， 
info ([C,, C,, ---, C,])=entropy(p,, Pos *, py) 
= -pı log, Pi —p, log, p, ~“ +p, log, p, (4.2) 
由 于 对 数 函 数 的 计算 方式 ， 我 们 可 以 计算 信息 度量 而 不 必 计 算 分 数 。 例 如 ， 
info ([2, 3, 4]) = ~ Glog S- Slog 3 - Slog + 
=| ( —2log2 -3log3 -4log4 +9log9)/9) ] 
这 束 是 实践 中 计算 信息 度量 的 通常 办 法 。 让 我 们 看 看 如 何 使 用 信息 度量 。 


4.2.3 构造 树 


在 创建 图 4-3 的 树 结构 之 前 ， 训 练 样本 (用 来 创建 树 的 数据 集 ) 在 包含 9 个 yes 和 5 个 no 
的 根 节点 上 ， 对 应 于 信息 值 info([9, 5]) =0. 940 位 。 

在 评估 图 4-3a 中 的 第 一 棵 树 时 ， 在 叶 节 点 的 yes 和 no 类 的 个 数 分 别 是 [2, 37, [4,0] 
和 [3, 2] ， 而 这 些 节点 的 信息 值 分 别 是 

info([2, 3]) = 0.971 位 

info([4,0]) = 0.0 4% 

info([3, 2]) = 0:971 47 

我 们 计算 它们 的 平均 信息 值 ， 考 虑 划分 到 每 个 分 支 
的 实例 数 。 将 5 个 实例 划分 到 第 一 个 和 第 三 分 支 , 4 个 
实例 划分 到 第 二 个 分 支 。 表 4-3 显示 了 该 划分 过 程 。 


表 4-3， 根 据 变量 “天气 ” 的 值 划分 


2 3 

4 0 

3 3 2 
i 9 5 
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info( (2, 3], (4, 0),973.2)/)@ 21 - 了 lg 2 -5lb8(3)]+ t ~ Foe, (4 ) -0log20| 
a 

+2 -owl -slog,(3)] =0. 693 位 

这 样 ， 图 4-3a 的 树 导致 的 信息 增益 为 

gain( RA) =info([9; 5]) =info([2, 31, [4, 0], [3, 2]) 

= 0. 940 -0.693 =0. 247 位 

它 可 以 解释 为 在 "天气 ”(outlook ) 属性 上 创建 分 支 的 信息 值 。 

前 进 的 路 是 清楚 的 。 我 们 为 每 个 属性 计算 信息 增益 ， 并 选择 获得 最 大 信息 增益 的 属性 进行 划分 。 

gain( KA) =0. 247 位 

gain( 气温) =0. 029 位 

gain( 湿度 ) =0. 152 位 

gain( 有 风 ) =0. 048 位 

这 样 ， 我 们 选择 天 气 作为 树 的 根 节点 的 划分 属性 。 和 希望 这 与 你 的 直观 最 佳 选择 一 致 。 这 
征 唯一 的 选择 ， 其 中 一 个 子女 节点 是 最 纯 的 ， 并 且 这 使 它 明 显 优 于 其 他 属性 。 湿 度 是 次 佳 选 
择 ， 它 产生 了 一 个 几乎 完全 纯 的 较 大 的 子女 带 帝 。 

然后 ， 我 们 递归 地 继续 选择 。 图 4-4a ~ 图 4-4c 显示 了 当天 和 气 为 晴 时 所 到 达 的 节点 上 的 
可 能 的 深 一 层 的 分 支 。 显 然 ， 在 天 气 上 的 进一步 划分 不 会 产生 新 的 结果 ， 因 此 只 考虑 其 他 3 
个 属性 。 每 个 属性 产生 的 信息 增益 分 别 为 . 

gain( 气温 ) =0.571 位 

gain( 湿度 ) =0.971 位 

gain( Á JX.) =0. 020 位 7 

因此 ， 此 处 我 们 选择 湿度 作为 划分 属性 。 不 再 需要 对 这 些 节 点 做 进一步 划分 。 





图 4-4a) KA=, 气温 = | 热 ， 温暖， 凉爽 | 的 局 部 树 





图 4-4c) 天 气 = 上 晴 ， 有 风 ={True, False} 的 局 部 树 


现在 ,我 们 对 按照 “天 气 = 雨 ”分 支 得 到 的 数据 进行 划分 。 图 4-5a ~ 图 4-5c 显示 了 这 些 局 
部 树 。 当 节点 上 的 数据 使 用 变量 “有 风 ” 划 分 时 ,子女 节点 是 纯 的。 这 产生 了 图 4-6 的 气象 数据 


HR BG 
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的 决策 树 。 理 想 情况 下 ， 当 所 有 叶 节点 都 是 纯 的 而 使 过 程 终止 时 ， 即 当 它们 包含 的 实例 都 具有 
相同 类 时 该 过 程 终 止 。 然 而 ， 可 能 无 法 到 达 这 种 结果 ， 因 为 无 法 避免 训练 集 包 含 两 个 具有 相同 
属性 集 ， 但 具有 不 同类 的 实例 。 因 此 ， 当 数据 不 能 进一步 划分 时 ， 我 们 停止 划分 过 程 。 





图 4-5a) 天气 = 十 ,湿度 = 图 4-5b) 天 气 = 雨 , 气温 =| 热 ， 温 暧 ， 
| 高 ,正常 | 的 局 部 树 ORI | 的 局 部 树 





9: yes 
图 4-5c) K =f, AM -= 图 4-6 最 终 的 决策 树 
(True, False} 的 局 部 树 
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4.2.4 高 分 支 属 性 


当 某 些 属性 具有 大 量 可 能 值 时 ,会 导致 具有 许多 子女 节点 的 多 路 分 支出 现 ， 信 息 增益 的 
计算 就 会 出 现 问题 。 对 于 这 一 问题 ， 最 好 用 一 个 极端 的 例子 来 体会 : 对 于 数据 集中 的 每 个 实 
例 ， 属 性 都 具有 不 同 值 。 例 如 ， 标 识 码 (identification ) 属性 。 

表 4-4 给 出 了 有 具有 这 种 附加 属性 的 气象 数据 。 在 : 卫 码 上 的 分 支 产生 图 4-7 的 树桩 。 给 
定 该 属性 的 值 ， 确 定 类 需要 的 信息 为 

info([0, 1]) +info([0, 1]) +info([0, 1]) +=- +info([0; 1]) +info([0, 1]) 
ESTES, AA 14 个 项 均 为 零 。 这 并 不 奇怪 : ID 码 属 性 确定 实例 ， 这 就 无 二 义 地 确定 了 
表 4-4 显示 的 类 。 因 此 ， 该 属性 的 信息 增益 恰 为 根 上 的 信息 info([9, 5]) =0. 940 位 。 它 
大 于 其 他 任何 属性 的 信息 增益 ， 因 而 ID 码 必 然 被 选 作 划分 属性 。 和 但是， 在 标识 码 上 分 支 
对 于 预测 未 知 实例 的 类 毫 无 用 处 ， 并 且 对 于 决策 的 结构 也 毫 无 帮助 ， 而 它们 都 是 机 器 学 
习 的 目标 。 

表 4-4 具有 标识 码 的 气象 数据 


ID 码 天 气 气温 湿度 AR  ” 打 网 球 ID RR 气温 湿度 有 风 TRIER 
a 晴 热 高 无 No h 晴 温暖 高 X No 
b 晴 热 高 有 No i 晴 凉爽 正常 无 Yes 
c 多 云 热 高 无 Yes j m 温暖 正常 Ki Yes 
d 雨 温暖 高 无 Yes k 晴 温暖 正常 有 Yes 
e m Uy BR 正常 车 Yes l Bu 温暖 高 有 Yes 
f 雨 凉爽 正常 有 No m 多 云 热 正常 学 Yes 
g 多 云 凉爽 正常 有 Yes n W 温暖 高 有 No 


总 体 效果 是 : 信息 增益 度量 趋向 于 选择 具 
有 大 量 可 能 值 的 属性 。 作 为 补偿 ， 通 常 使 用 一 
种 称 作 增益 率 ( gain ratio) 的 度量 变型 。 增 益 率 
通过 考虑 属性 划分 数据 集 产 生 的 子女 节点 的 个 
数 和 大 小 ， 忽 略 关于 类 的 信息 导出 。 在 图 4-7 
所 示 的 情况 中 ， 所 有 的 计数 值 均 为 1， 因 此 划 
分 信息 值 是 
info( [1, 1, +:, EJ) = 4 We T14 x 
1/14 

因为 相同 的 分 数 1/14 出 现 14 次 。 上 式 等 
于 logl4 或 3.807 位 ,这 是 一 个 很 高 的 值 。 因 
为 划分 的 信息 值 是 确定 每 个 实例 指派 到 哪个 分 
文 所 需要 的 位 数 ， 并 且 分 文 越 多 ， 该 值 越 大 。 增 益 率 通过 用 原来 的 信息 增益 (本 例 为 0. 940 ) 
除 以 属性 的 该 信息 值 3. 807， 得 到 ID 码 属性 的 增益 率 值 0. 246。 回 到 表 4-3 所 示 的 气象 数据 
的 局 部 树 , “天气” 将 数据 集 划 分 成 大 小 为 5、4 和 5 的 三 个 子 集 ， 因 此 无 须 关心 子 集中 涉及 
的 类 ， 它 具有 固有 信息 值 info([5, 4, 5]) =1.577。 正 如 我 们 所 看 到 的 ， 对 于 假想 的 ID 码 
这 样 具有 较 高 分 支 的 属性 ， 该 固有 信息 值 较 高 。 再 重复 一 次 ， 信 息 增 益 除 以 该 固有 信息 值得 
到 增益 率 。 
图 4-3a ~ 图 4-3d 的 树桩 的 计算 结果 汇总 在 表 4-5 H, 





图 4-7 ID 码 属性 的 树桩 


ARPI 
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表 4-5 决策 变量 的 增益 率 


天 气 2R 

Info =0. 693 Info =0. 911 

Gain =0. 940 -0. 693 =0. 247 Gain =0. 940 - 0. 911 = 0.029 

Split info = info([5, 4, 5]) =1.577 Split info = info([4, 6, 4]) =1. 362 
Gain ratio =0. 247/1. 577 =0. 156 Gain ratio =0. 029/1. 362 = 0. 021 
湿度 A 

Info =0. 788 Info =0. 892 

Gain =0. 940 -0. 788 = 0. 152 Gain =0. 940 - 0. 892 = 0. 048 

Split info = info([7, 7]) =1 Split info = info([8, 6]) =0. 985 
Gain ratio =0. 152/1 =0. 152 Gain ratio = 0. 029/1. 362 =0. 049 


使 用 “天 气 ” 的 效果 仍然 最 好 ， 但 是 现在 “湿度 ”成 了 有 力 的 竞争 者 ， 因 为 它 将 数据 划分 
成 两 个 子 集 ， 而 不 是 三 个 。 在 这 个 例子 中 ,假想 的 ID 码 属 性 的 信息 增益 率 为 0.246， 仍 然 
好 于 这 4 个 属性 中 的 任何 一 个 。 然 而 ， 它 的 优势 已 经 大 大 降低 。 在 实际 实现 中 ， 使 用 特殊 的 
检验 以 确保 不 在 这 种 无 用 的 属性 上 划分 。 

遗憾 的 是 ， 在 茶 些 情况 下 ， 增 益 率 补偿 过 分 ， 并 且 可 能 导致 优先 选择 这 样 的 属性 ， 仅 仅 
因为 它 的 固有 信息 比 其 他 属性 低 得 多 。 标 准 的 做 法 是 选择 最 大 化 增益 率 的 属性 ， 只 要 该 属性 
的 信息 增益 至 少 与 所 考察 的 所 有 属性 的 平均 信息 增益 一 样 大 。 


4.2.5 从 ID3 到 C4.5 


决策 树 归 纳 ( 有 时 也 称 决策 树 的 自 顶 向 下 归纳 ) 的 分 治 技术 由 澳大利亚 悉尼 大 学 的 Ross 
Quinlan[2] 开 发 并 经 过 多 年 优化 。 尽 管 其 他 人 也 在 研究 类 似 的 方法 ,但 是 Quinlan 的 研究 总 
是 站 在 决策 树 归纳 的 最 前 沿 。 所 介绍 的 使 用 信息 增益 标准 的 方案 基本 上 与 ID3 相同 。 增 益 率 
的 使 用 正 是 多 年 来 对 ID3 的 诸多 改进 之 一 ; Quinlan 形容 它 在 众多 环境 下 具有 重 棒 性 。 尽 管 
这 是 一 个 实际 的 解决 方案 ， 但 是 它 牺牲 了 信息 增益 标准 的 某 些 优雅 和 整洁 的 理论 动机 。 对 
ID3 的 一 系列 改进 在 称 作 C4.5 的 有 影响 的 、 广 泛 使 用 的 决策 树 归 纳 系 统 中 达到 高 峰 。 这 些 
改进 包括 处 理 数 值 属性 、 缺 失 值 、 噪 声 数 据 和 由 决策 树 产生 规则 的 方法 。 


4.2.6 形象 化 地 理解 ID3 和 C4. 5 算法 
例 4.1 考虑 表 4-6 所 示 的 关于 昆虫 类 数据 的 部 分 列表 。 


表 4-6 昆虫 数据 
EH ID 腹部 长 度 触角 长 度 昆虫 类 昆虫 ID 腹部 长 度 触角 长 度 昆虫 类 
1 2.7 $3 蝗虫 6 2.9 1.9 蝗虫 
2 8.0 9.1 igs 7 6. 1 6. 6 in 
3 0.9 4.7 蝗虫 8 0.5 1.0 蝗虫 
4 4 蝗虫 9 8. 3 6.6 ig dE 
5 5.4 8.5 ig 10 8. 1 4.7 iy dE 


图 4-8 给 出 了 对 应 的 特征 空间 和 决策 树 。 基 于 “腹部 长 度 "的 垂直 切割 给 我 们 一 个 仅 包含 
SESE TS CRRA TEA) 。 左 节点 是 一 个 不 纯 的 节点 。 现 在 ， 基 于 变量 “触角 长 度 " 在 左 部 
了 点 数据 上 的 水 平 切割 产生 最 终 的 决策 树 ， 其 所 有 叶 节点 都 是 纯 的 节点 。 我 们 称 这 种 类 型 的 
切割 为 轴 平 行 切 割 。 大 部 分 决策 树 算法 只 做 轴 平 行 切 割 。 


= LEES 





触角 长 度 


| 腹部 长 度 >7.1? | 


no yes 





触角 长 度 >6.0? 


no yes 





和 
腹部 长 度 


图 4-8 昆虫 数据 的 特征 空间 和 决策 树 


例 4.2 图 4-9 显示 了 男性 和 女性 (人 ) 的 某 些 特征 的 数据 。 图 4-10 显示 了 对 应 的 决 
策 树 。 


头发 长 度 RECA) 


Shivani 





图 4-9 ”女性 和 男性 分 类 数据 
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图 片 姓名 头发 长 度 体重 (公斤 ) 年 龄 类 
f ` Ram Singh 10” 47 38 B 
各 
ae Nagabhushan 6” 53 45 E 
dh 
图 4-9 (2) 





图 4-10， 女 性 和 男性 分 类 的 决策 树 


4.3 CHAID 


CHAID( Chi-square Automatic Interaction Detection， 卡 方 目 动 交互 检测 ) 首次 出 现在 G. 
V. Kass 博士 发 表 于 1980 年 “应 用 统计 学 ”杂志 上 的 一 篇 题 为 “An Exploratory Technique for In- 
vestigating Large Quantities of Categorical Data” 的 文章 中 [3 ] 。 该 过 程 是 一 种 称 作 自动 交互 检测 
( Automatic Interaction Detection，AID)[4] 的 早期 技术 的 衍生 物 ， 使 用 卡 方 统计 量 作 为 主要 工 
E, 建议 不 熟悉 卡 方 统 计量 的 读者 阅读 本 章 最 后 的 参考 文献 。) 


像 ID3 一 样 ，CHAID 关注 基于 一 些 其 他 变量 ( 称 作 预 涡 Sg 预测 单个 变量 ( 称 作 依赖 变量 ) 。 

引述 应 用 统计 学 "中 的 文章 [3],“CHAID 将 数据 划分 成 互 斥 的 、 穷 举 的 、 能 够 恰当 描 
述 依赖 变量 的 子 集 ”。 像 ID3 一 样 ，CHAID 是 一 种 欠 代 技术 ， 它 单 独 考 察 预 测 子 (探查 变量 ) 
并 按照 它们 的 统计 显著 性 指示 的 次 序 利用 它们 。CHAID 分 析 是 非常 简单 和 直观 的 。CHAID 
首先 确定 哪个 预测 变量 能 最 有 效 地 区 分 总 体 中 依赖 变量 的 不 同 级 别 (level) 。 然 后 ， 它 根据 
该 变量 的 重要 类 别 (级 别 ) 划 分 总 体 。 例 如 ， 在 汽车 保险 公司 ， 间 题 是 根据 分 类 变量 预测 音 
外 事故 发 生 的 频率 或 纯 保险 费 。 如 有 果 分 析 发 现年 行车 里 程 是 区 分 险 损 赔 偿 频 率 的 最 佳 变量 ， 
则 使 用 重要 的 行车 里 程 级 别 (如 2500 以 下 ，2501 ~5000 等 ) 划 分 总 体 。 然后 单独 地 考察 每 个 
划分 ， 确 定 剩余 的 变量 中 哪 一 个 变量 能 最 有 效 地 区 分 该 划分 中 的 风险 。 继续 进行 该 过 程 ， 直 
到 考察 完 所 有 变量 为 止 。 那 些 重要 的 变量 触发 数据 的 再 次 划分 ， 而 那些 对 于 该 划分 不 重要 的 
变量 被 丢弃 。 结 果 类 似 于 一 棵 倒置 的 树 ， 每 个 分 支 标识 总 体 的 一 个 重要 子 群 。 


4. 3.1 CHAID 的 数学 工具 


CHAID 涉及 基本 卡 方 相依 检验 ( Chi- Square Contingency Test) 的 复杂 应 用 ， 卡 方 相依 检验 
在 每 本 基础 统计 学 教程 中 都 有 介绍 。 CHAID 以 两 种 方式 使 用 卡 方 统计 量 ( Chi- Square statis- 
tic)。 前 先 ， 它 确定 预测 变量 的 级 别 (不 同 的 属性 值 ， 如 气温 = “de”, Sop = “WR” SE) AE 
否 合并 。 一 旦 所 有 的 预测 子 级 别 都 被 压缩 (或 合并 ) 成 最 小 的 显著 形式 ， 它 就 确定 哪个 预测 
子 在 区 分 依赖 变量 级 别 方面 最 显著 。 


4. 3.2 CHAID 变量 的 类 型 


在 更 详细 地 介绍 该 过 程 之 前 ,我 们 必须 解释 CHAD 支持 的 数据 类 型 。 依 赖 变量 必须 划 
分 成 离散 类 别 。 假 定 预测 变量 可 以 具有 三 种 不 同形 式 : 具有 隐 含 序 的 单调 预测 子 (如 驾驶 员 
的 年 龄 )， 不 具有 隐 售 序 的 自由 预测 子 ( 如 地 域 ) 和 除 一 个 级 别 外 都 遵循 特定 序 的 浮动 预测 
子 。 在 与 其 他 单调 变量 合 取 中 ， 浮 动 预测 子 允 许 使 用 “缺失 ”或 “未 知 ” 级 别 ( 称 为 浮动 级 别 ) 。 


4.3.3 CHAID 算法 


假定 依赖 变量 ( 目标 变量 ) 具有 d 个 级 别 ， 并 且 所 分 析 的 具体 预测 子 变量 具有 c 个 级 别 。 
这 些 数据 可 以 汇总 在 一 个 c x d 相依 表 中 。CHAID 分 析 的 第 一 步 的 目标 是 压缩 该 c x d 表 的 
行 ， 使 得 它 仅 包含 显著 不 同 的 级 别 。 用 数学 术语 说 ， 我 们 希望 将 该 c x d 表 归 约 成 最 重要 的 
7 xd 表 ， 其 中 7 的 范围 为 2 ~c。 我 们 选择 具有 最 显著 卡 方 统计 量 的 jxd 表 。 

允许 的 级 别 合 并 依赖 于 预测 变量 的 类 型 。 尽 管 自由 预测 子 可 以 以 任意 方式 合并 ,但 是 对 
于 单调 变量 而 言 ， 只 能 合并 相 邻 的 级 别 。 浮 动 预测 子 级 别 的 合并 也 限于 相 邻 级 别 ， 唯 一 的 例 
外 是 浮动 类 别 ， 它 可 以 单独 也 可 以 与 任何 其 他 组 群 合并 。 

最 佳 j xd 表 的 实际 计算 一 般 需 要 进行 动态 规划 ， 以 考察 所 有 可 能 的 排列 。 对 于 单调 预 
测 于 ， 该 计算 的 量 级 是 。。 对 于 自由 预测 子 ， 解 的 量 级 是 2 (ERE, c 是 预测 变量 的 级 别 
数 )。 显然 ， 对 于 考察 大 量 预 测 子 变量 ， 这 样 的 计算 量 使 得 动态 规划 成 为 一 种 不 切实 际 的 方 
法 。 因 此 ，Kass 博士 [3] 开 发 了 一 种 替代 的 方法 ， 它 类 似 于 逐步 和 分 段 回归 中 使 用 的 技术 。 
它 不 能 保证 得 到 最 优 解 ， 但 是 可 以 产生 实践 中 相当 满意 的 结果 。 

一 且 预 测 子 级 别 合并 之 后 ,算法 必须 确定 压缩 后 的 相依 表 的 显著 性 。 如 果 表 没有 被 归 约 ， 
则 显著 性 是 概率 计算 值 的 补 ， 假 定 自由 度 为 -1) (ad -1)， 它 可 以 通过 查 任意 卡 方 表 确 定 。 

然而 ， 如 果 相依 表 被 归 约 ， 则 算法 确保 结果 表 的 大 小 是 最 好 的 。 因 此 ， 显 著 性 必须 反映 
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这 一 事实 : 该 表 不 能 被 孤立 地 考虑 ， 而 应 当 在 所 有 可 能 的 jxd 表 背 景 下 考虑 。 因此 ， 仅 仅 
确定 与 计算 的 卡 方 统计 量 相 关联 的 显著 性 是 不 够 的 。Kass 博士 [3] 使 用 涉及 同时 考虑 所 有 
7 Xd 表 的 显著 性 。 使 用 Bonferroni 的 概率 定理 ， 他 计算 所 有 jxd 表 的 显著 性 的 一 个 下 界 。 通 
过 将 未 归 约 的 表 的 显著 性 乘 以 一 个 称 作 Bonferroni -F (Bonferroni multiplier) 的 因子 ， 确 定 该 
显著 水 平 。 

该 乘 子 对 应 于 可 以 将 “个 级 别 归 约 到 7 个 组 群 的 方法 数 ， 并 且 因 预测 变量 的 类 型 而 异 ， 
对 于 单调 变量 ， 因 为 只 4 能 合并 相 邻 级 别 ， 所 以 Bonferroni 乘 子 为 : 

ey 
: (5-1) 
目 由 预测 子 可 以 以 任意 方式 组 合 ， 其 Bonferroni 乘 子 为 : 
DO 
ZARA, FMF Bonferroni 乘 子 最 复杂 ， 它 的 形式 如 下 : 


c—2 /cc—2 
| 
我 们 用 一 个 数值 例子 来 解释 乘 子 的 使 用 。 一 个 具有 检验 统计 量 值 23. 3 的 4 x5 的 未 归 约 
的 相依 表 具 有 显著 性 0. 025( 假设 自由 度 为 .12) 。 然 而 ， 如 果 从 6 x5 的 相依 表 开 始 ， 并 将 它 
降 维 到 4 x5， 则 对 于 单调 预测 变量 ， 相 同 的 检验 统计 量 将 反映 0.1( =4 x0.025) 的 显著 性 。 
如 果 使 用 5% 的 显著 水 平 作为 临界 点 ， 则 未 归 约 的 表 将 被 认为 是 显著 的 ， 而 归 约 表 则 不 是 显 
著 的 。 
关于 Bonferroni 乘 子 的 更 全 面 的 解释 ， 建 议 读 者 阅读 文献 [3] 。 
每 次 迭代 的 最 后 一 步 是 确定 具有 最 高 显著 性 的 预测 变量 对 于 数据 划分 而 言 是 否 足够 显 
著 。 如 果 是 ， 则 将 数据 基于 该 变量 的 重要 级 别 划 分 。 如 果 不 是 ， 则 过 程 停止 。 


4. 3.4 CHAID 算法 描述 


下 面 是 CHAID 算法 的 描述 ， 它 在 Kass 博士 1980 年 的 文章 [3] 中 给 出 。 

步骤 1 对 于 每 个 预测 变量 X， 找 出 的 类 别 对 ， 它 们 关于 目标 变量 差别 最 不 显著 ( 即 
最 大 的 p 值 ) 。 使 用 一 个 以 X 的 类 别 为 行 ， 目标 变量 的 类 别 为 列 的 二 路 交叉 表 找 出 p。 使 用 
卡 方 检验 来 检验 显著 性 。 

步骤 2 对 于 XX 的 具有 最 大 p 值 的 类 别 对 ,将 p 值 与 预先 指定 的 a, 比较 。 

WMR p EKF os。， 则 将 该 类 别 对 合并 成 一 个 复合 类 别 。 结 果 形 成 的 新 的 类 别 集 ， 
并 且 从 步骤 1 开始 该 过 程 。 

WR p 值 小 于 wu。。， 则 转 到 步骤 3。 

步骤 3 使 用 适当 的 Bonferroni WZ, H X 的 类 别 集 和 目标 变量 的 类 别 集 计算 调整 后 
的 p 值 。 

步骤 4 选择 这 样 的 预测 变量 XY. 它 具 有 最 小 的 、 调 整 后 的 p 值 (最 重要 的 一 个 预测 
子 )。 将 它 的 p 值 与 预先 指定 的 a 比较 。 | 

如 果 该 p 值 小 于 或 等 于 ww ， 则 按照 的 类 别 集 分 裂 该 节点 。 

WRZ p EKF am ， 则 不 分 裂 该 节点 。 该 节点 是 一 个 终端 节点 。 
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步骤 5 继续 树 生长 过 程 ， 直 到 满足 终止 条 件 为 止 。 
4.3.5 将 CHAID 用 于 气象 数据 | 


现在 ， 我 们 通过 将 CHAD 算法 用 于 一 个 简单 数据 集 来 介绍 它 的 步骤 。 该 数据 集 (参见 表 
4-2) 只 包含 一 个 分 类 目标 变量 打 网 球 (7Y) 和 4 个 探测 变量 天 气 (X,)、 气 温 (X,)、 湿 度 (X,) 
和 有 风 (X)。 变 量 Y 有 两 个 级 别 ，Y = tyes, no}, BEX, 有 3 个 级 别 , X = 并 有 睛 ; 风云， 
Nio ZEX 有 3 个 级 别 ，% = fA 温暖 BIE), BX, APIA, X, = 高， 正 
Wio ZEX, 有 两 个 级 别 ,， X,={TRUE, FALSE}, 

CHAID 算法 中 的 步骤 是 : 

1) 计算 响应 变量 打 网 球 在 根 节点 的 分 布 ， 如 表 村 7 所 示 。 

2) 对 于 每 个 预测 变量 XX， 找 出 它 的 关于 了 在 该 节点 的 分 布 差别 最 不 显著 的 类 别 对 ( 即 具 
有 最 大 p 值 )。 用 于 计算 p 值 的 方法 依赖 于 了 的 度量 级 别 。 在 这 个 例子 中 ， Y 是 分 类 的 ， 因 
此 需要 进行 一 系列 卡 方 检验 。 | 

FEAT RAP, RWEERA(X ) 和 目标 变量 打 网 球 之 间 的 联系 由 下 面 的 交叉 表 ( 见 表 
4-8) 给 出 : 


表 4-7 在 根 节点 分 裂 ” 表 4-8 基于 变量 "天气 "分裂 
Ail 实例 数 % KAX) ，. 打 网 球 =yes。， 打 网 球 =no 行 合 计 
0 
Play = yes 9 64. 29 X, = Hy 2 3 5 
Play = 5 35. 71 emaa i i : 
ay = no bs X, sl 雨 3 > 5 
列 合计 TO 5 14 








HFX, = 天气 有 3 个 类 别 , 因此 有 C? =3 个 2 x2 的 子 交叉 表 需 要 考虑 .它们 如 天 
4-9a ~ R 4-c 所 示 。 
表 4-9 合并 变量 “天 气 ” 级 别 的 显著 性 检验 


a) RAA) 打 网 球 = yes 打 网 球 = no 
x, = ii oer’ 3 
X = 多云 4 0 
FPI =3.6, d. f=1, p ÍË =0. 05778 
b) 天 气 (X,) 打 网 球 =yes 打 网 球 = no 
X =i 2 3 
X, = 雨 3 2 
卡 方 =0.4, df=1, p 4H =0.5271 
c) RUC) | 打 网 球 = yes 打 网 球 = no 
X = 3 2 
X= 4 | 0 


Wr =2. 857, d. f=1, p tH =0.0909 


然后 ,算法 识别 具有 最 大 p fA X (KA) 的 类 别 对 ， 并 与 预先 指定 的 merge 比较 (默认 
值 为 0. 05) 。 在 这 个 例子 中 ， 由 于 “天 气 = 晴 ” 和 “天 气 =” XH p 值 =0. 5271, 因此 我 们 合 
并 这 些 类 别 ， 并 再 次 计算 交叉 表 ， 得 到 下 面 的 表 4-10, 


ssi esi etiidi 
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4-10 基于 两 个 级 别 合并 在 变量 “天 气 ” 上 的 分 裂 
RAX) 打 网 球 = yes 打 网 球 =no 
X, = Ay or Ñ 5 5 
X = 多 云 4 0 


卡 方 =3. 144-4 fet p {È =0. 0777 


对 于 变量 ， 我 们 只 有 一 个 这 样 的 表 。 
现在 ,算法 对 合并 后 X, 的 类 别 和 了 的 类 别 集 使 用 Bonferroni 调整 计算 调整 的 p 值 。 卡 方 
p 值 使 用 Bonferroni RTII. HF X, 是 标 称 的 ， 因 此 其 Bonferroni 乘 子 用 下 式 计 算 : 


Bie = Fey ? 
AP c fz X, 的 原来 的 类 别 数 (3)， r= 合并 的 类 别 数 (2) 。 这 导致 调整 后 的 p 值 为 0. 3786( = 
0. 2524 x1. 5), 


现在 ， 我 们 切换 到 下 一 个 变量 “气温 
3) FAX, (“Uiit) RX, , HEA MT YX, REIR. #411 BRT DMMB, 


R4-11 合并 变量 “气温 ”级 别 的 显著 性 检验 


a) AHX) 打 网 球 = yes FTIR = no 
X, = 热 2 2 
X, = 温暖 4 2 
卡 方 =0.2777; d.f=1, p {fi =0. 5981 
b) 气温 (XX,) 打 网 球 = yes 打 网 球 =no 
X, = 热 ae 2 
X, = VR 3 1 
卡 方 =0. 5333, d.f=1, p {fi =0. 4652 
c) 气温 (X,) 打 网 球 = yes 打 网 球 =no 
X, = 温暖 4 2 
X, = 凉爽 3 1 


卡 方 =0.0783,d.f=1, p 值 =0.7781 


最 高 p 值 是 “气温 = 温暖 ”和 “气温 = 凉 亚 "对 的 p 值 。 因 此， 我 们 合并 这 些 类 别 ， 形 成 
表 4-12 所 示 的 新 交叉 表 。 
表 4-12 基于 两 个 级 别 合并 的 变量 “气温 ”的 分 裂 
气温 (X,) 打 网 球 = yes 打 网 球 = no 


X, = 温暖 or 凉爽 7 3 
X, = 2 2 


EF =0. 4977, d f=1, p {i =0. 4804 


Bonferroni 调整 后 ，p 值 为 1。 
接 下 来 ,我们 考虑 XL = 湿度 。 这 里 ， 由 于 类 别 数 为 2， 因 此 我 们 只 需要 做 一 个 交叉 表 。 
不 需要 合并 类 别 。 表 4-13 显示 了 显著 性 检验 。 


R413 变量 “湿度 "的 显著 性 检验 


R(X) FT YER = yes FJ YER = no 
X, = 高 3 4 
X, = 正常 6 1 


FY 8 出 了 三 和 p {8 =0. 0942 


最 后 要 考虑 的 是 变量 “有 风 ”。 交 又 表 如 下 面 的 表 4-14 所 示 。 
表 4:14 变量 “有 风 ” 的 显著 性 检验 


Te UC XG) _- FT ABR = yes 打 网 球 = no 
ny 6 ; 2 
X, = True 3 3 


EX =0.9333, d. f=1, p {Ë =0. 3339 


所 得 到 的 最 小 p 值 是 变量 “湿度 ”的 p 值 ， 将 “高 ?划分 在 一 边 ,“ 正 常 ” 在 另 一边 。 这 导 
致 树 的 根 节点 数据 根据 变量 “湿度 划分。 注意，4. 2 节 基 于 焙 的 划分 导致 树 的 根 节点 基于 变 
E 天 气 划分 。 


4.3.6 单调 变量 的 预测 子 级 别 合 并 
在 对 单调 变量 进行 CHAID 分 析 时 ， 只 试图 对 连续 的 级 别 进行 合并 。 让 我 们 考虑 一 个 例 
子 ， 其 中 要 分 析 的 预测 子 变 量 是 驾驶 员 的 “年 龄 组 ”， 而 目标 变量 是 在 过 去 的 6 个 月 中 ， 购 


关 保 险 的 驾驶 员 集 合 的 “保险 索赔 次 数 ”。 表 4-15a, FE 4-15b MK 4-150 分 别 显 示 合 并 前 、 
一 次 合并 和 两 次 级 别 合并 后 显著 性 检验 。 


表 4-15 一 个 单调 预测 子 变量 的 CHAID 分 析 例 子 


a) 合并 前 
依赖 变量 
各 驶 员 年 龄 0 1 2 3 合计 
20 以 下 350 75 50 25 500 * 
2i -24 584 112 80 24 800 
25 ~29 560 84 42 14 700 
30 ~49 3440 340 140 80 4000 
50 ~65 2195 180 75 50 2500 
65 DLE 1245 180 60 15 1500 ` 
At 8374 971 447 208 10000 
b)1 次 合并 后 
驾驶 员 年 龄 0 1 2 3 合计 
24 以 下 934 _ ides he: 130 49 | 1300° 
25 ~29 560 84 42 14 700° 
30 ~49 3440 340 140 80 4000 
50 ~ 65 2195 180 75 50 2500 
65 以 上 1245 180 60 15 1500 
合计 8374 971 447 208 10000 
c)2 次 合并 后 
驾驶 员 年 龄 0 | 1 2 3 合计 
24 以 下 934 -i 187 130 49 1300 


25 ~29 560 84 42 14 700 








KP — RREH = 
( 续 ) 
CGC 
c)2 次 合并 后 
驾驶 员 年 龄 0 1 2 3 合计 
30 ~ 65 5635 | 520 215 e 6500 
6S Ek E 1245 180 60 15 1500 
rit 8374 971 447 208 10000 


注 : *RALFRBAUE: 3.86 
. # 最 不 显著 检验 统计 量 : 4.99 
所 有 的 级 别 显 著 地 不 同 
变量 的 显著 性 : 0. 00001 ( Bonferroni 调整 ) 


4.4 CART (分 类 和 回归 树 ) 


CART( Classification And Regression Tree， 分 类 和 回归 树 ) 算 法 由 Breiman 等 ACS] F 1984 
年 提出 。 从 概念 上 讲 ，Breiman 提出 的 ( 标 称 /分 类 目标 变量 的 ) 分 类 树 与 ID3 的 决策 树 相 同 。 
该 算法 与 ID3 有 三 个 方面 的 不 同 。 第 一 ，CART 中 用 于 选择 变量 的 不 纯 性 度量 是 Gini 指数 
(Gini index) 。 第 二 ， 如 果 目 标 变量 是 标 称 的 ， 并 且 具 有 两 个 以 上 的 类 别 ， 则 CART 可 能 考 
虑 将 目标 类 别 合并 成 两 个 超 类 别 。 这 一 过 程 称 为 双 化 (twoing) 。 第 三 ， 如 果 目标 变量 是 连续 
的 (数值 的 ) ， 则 CART 算法 找 出 一 组 基于 树 的 回归 方程 来 预测 目 标 变量 。 如 果 目 标 变量 是 
标 称 的 ， 则 称 该 树 为 分 类 树 ( classification tree) ， 而 对 于 连续 数值 目标 变量 ， 则 该 树 称 为 回归 


树 ( regression tree ) 。 
4.4.1 CART 使 用 的 不 纯 性 度量 


有 4 种 不 同 的 不 纯 性 度量 可 用 来 发 现 CART 模型 的 划分 ， 这 取决 于 目标 变量 的 类 型 。 对 
于 分 类 的 目标 变量 ， 我 们 可 以 选择 CINI、 双 化 或 (对 于 有 序 目 标 ) 有 序 双 化 。 对 于 连续 的 目 
标 变量 ， 我 们 可 以 使 用 最 小 二 乘 偏差 ( Least- Squared Deviation, LSD) 或 最 处 绝对 偏差 {Least 
Absolute Deviation，LAD)。 前 三 种 度量 将 在 以 下 几 节 解释 。 


4. 4.2 Gini 指数 


Gini 指数 是 一 种 不 等 性 度量 ， 由 意大利 统计 学 家 Corrado Gini 提出 ， 并 于 1912 年 发 表 在 
他 的 文章 ”Variabilita e mutabilita” H, 它 通常 用 来 度量 收入 不 平衡 ,但 是 它 可 以 用 来 度量 任 
何不 均匀 分 布 。Gini 指数 是 一 个 0 ~ 1 之 间 的 数 ， 其 中 0 对 应 于 完全 相等 (其 中 每 个 人 都 具有 
相同 的 收入 ) ， 而 1 对 应 于 完全 不 相等 (其 中 一 个 人 具有 所 有 收入 ， 而 其 他 人 收入 都 为 零 )。 
Gini 指数 的 一 个 修订 形式 用 于 度量 节点 的 不 纯 性 ， 并 且 常 常 在 依赖 变量 (目标 变量 ) 是 分 类 
变量 时 使 用 。 它 的 最 小 值 是 0， 最 大 值 是 (1 -1A#) ， AF k 是 目标 变量 的 类 别 数 。 

WA t HY Gini 指数 GING) EH: 


GINI tjes Sai pin (4.3) 
AUP i 和 7 是 目标 变量 的 类 别 。 上 式 可 以 写作 : | , 
CINI) =1 - ay (j/t) , “ap 


其 中 p(j/t) 表 示 目 标 类 别 j 在 节点 :中 出 现 的 比例 。 
这 样 ， 当 节点 中 的 实例 在 目标 类 别 之 间 均 匀 分 布 时 ，Gini 指数 取 最 大 值 1 - 1/k， 其 中 
是 目标 变量 的 类 别 数 。GCini 指数 的 最 小 值 为 0， 当 节 点 上 的 所 有 数据 都 属于 一 个 目标 类 别 时 
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. 取 最 小 值 。 

节点 上 上 的 * 上 划分 的 Cini 标准 定义 为 : 

GINI ,in(s, t) =GINI(t) -Pr GINI(t,) -pr * GINI (tp) (4.5) 

其 中 pi Æt 中 送 到 左边 子女 节点 的 实例 所 占 的 比例 ，pr 是 上 中 送 到 右边 子女 节点 的 实例 所 占 
的 比例 。s eS 是 所 有 可 能 的 划分 集 S 中 的 一 个 具体 划分 。 

WEUS s, EAK GIN (s, 4) 的 值 。 由 于 对 于 节点 1: 上 的 任意 划分 s，GINI(z) 是 常 
Bt, 我们 可 以 说 选择 划分 5， 使 得 量 Cain(s, t) =p, + GINI(t,) +pr* GINI(tn) 最 小 。 

对 于 分 类 变量 ,如果 类 别 多 于 两 个 ， 则 考虑 将 类 别 合 并 为 两 个 超 类 别 的 所 有 可 能 组 合 ， 
以 求 出 最 佳 划 分 。 


4.4.3 使 用 Gini 指数 一 个 例子 


让 我 们 用 表 4-16 中 的 气象 数据 ， 使 用 Gini 指数 构建 分 类 树 。 变 量 “ 天 气 ” 和 “气温 ”有 三 
个 级 别 ， 因 此 我 们 需要 考虑 级 别 合并 ， 得 到 使 用 Cini 指数 划分 数据 的 增益 。 在 这 个 例子 中 ， 
我 们 仅 计 算 三 个 可 能 的 合并 中 的 一 个 。 读 者 可 以 试 着 计算 所 有 可 能 的 合并 ， 以 确定 划分 数据 
的 变量 。 表 4-16 显示 了 根 节点 上 Gini 指数 的 计算 结果 。 计 算 的 细节 如 下 : 

7&0 EME. 

变量 一 一 天 气 


GINI( RA = ff + FA) =1-[(3) +(3) we 





1 1 
GINI( 天 气 = BX) =1 -[(4) +( 4) | =0 
CINI1( 按 天 气 划分 ) = | aa x i=) (i) x0] =0. 3571 
变量 一 气温 
GINI( Sih = #4 + BBR) =1 - | (2) + (2) ] = (0. 46875 


GINI( Sh = 适中 ) =1 -[(4) +(2) ] =0. 44 


GINI( 按 气温 划分 ) mit a x 0. 46875 +( 7) x0. 44] =0. 456 
变量 一 一 湿度 
GINI( 湿 度 = 高 ) =1- [ (了 | 


N 
十 
PP 
+ 
S 
N 
| 
iI 
pN 


GINI( 湿 度 = 正 常 ) =1 -| 
ss 


(7) 
GIV1( 按 湿度 划分 ) = ia} beg a 0:37 
变量 一 一 有 风 
GINI Ai = false) =1 - [ (£) +( 3) = 0, 375 


2 


GINI( 湿 度 = true) =1-[(%) 


RRP —H # Fo e /2 Pt 59 


GINT( 按 有 风 划 分 ) = | (= x0. 375 + p x0. 5] =0. 43 


4-16 各 变量 划分 根 节点 上 的 数据 的 增益 


5 4 5 + 3 6 6 3 

No 5 0 3 2 4 1 2 3 

Gini( 7) 0.5 0 0. 47 0. 44 0. 49 0. 25 0. 38 0.5 
Gain 0. 36 0. 46 0. 37 0. 43 


Be/) SE fn TRA ATM A BS. A, ERTA, ATR KA” IE. EA 
这 一 过 程 ， 直 到 得 到 纯 节点 ， 或 满足 像 叶 节 点 上 最 小 数据 量 这 样 的 终止 条 件 为 止 。 结 果树 如 
图 4-11 所 示 。 

EWP, N 为 该 节点 上 的 数据 点 数 ,V 为 将 该 节点 上 的 数据 划分 到 它 的 子女 节点 所 基于 
的 变量 。 














多 云 雨 / 晴 
4 yes, Ono 正常 
终端 节点 5 
4 no，1 yes 
False True 
终端 节点 2 
3 yes，0 no 
十 哺 
终端 节点 3 终端 节点 4 
I no，0 yes 1 yes, Ono 
图 4-11 结果 树 


4.4.4 双 化 指数 
基于 双 化 指数 (twoing index) 将 目标 类 别 划 分 成 双 超 类 ， 然 后 基于 这 些 双 超 类 找 出 被 预 


60 ae 





测 变量 上 的 最 佳 划分 。 节 点 上 上 的 。 etl o | 
Pr * me. pe ; 
t; (7) =p A | me 


EP t, 和 te 是 被 划分 s 创建 的 节点 。 AG soniye so MH, Pins i 
取 被 预测 变量 的 类 别 (基于 变量 的 类 别 来 划分 数据 ) 。 在 分 类 目标 变量 情况 下 ， 可 以 用 目标 
类 别 的 各 种 组 合 创 建 超 类 C, 和 Cs 


4.4.5 有 序 双 化 


有 序 双 化 指数 是 双 化 指数 的 修改 ， 用 于 有 序 目标 变量 。 三 者 的 区 别 在 于 ,使 用 有 序 双 化 
标准 ， 只 能 合并 相 邻 的 类 别 以 形成 超 类 。 例 如， 考虑 一 个 诸如 账户 状态 这 样 的 目标 变量 ， 类 
” 别 1= 当 前 ， 类别 2=30 天 过 期 , 类别 3 =60 天 过 期 ， 类别 4 = 90 天 以 后 过 期 。 双 化 标准 可 

能 在 茶 种 情况 下 将 类 别 1 和 4 合并 在 一 起 ,形成 超 类 地 然而 ， 如 果 认 为 这 些 类 别 是 有 序 的 ， 
则 我 们 不 希望 合并 类 别 1 和 4( 外 部 还 包括 介入 类 别 ) ， 因 为 它们 不 是 相 邻 的 。 有 序 双 化 指数 
考虑 这 种 序 ， 并 且 不 合并 像 类 别 1 和 4 这 样 的 不 相 邻 类 别 。 

最 后 ， 我 们 在 下 面 概述 CART 的 分 类 树 算法 。 


4.4.6 CART 分析 的 步骤 


1 ) 从 根 节点 上 =1 开始 ， 从 所 有 可 能 候选 的 集合 中 搜索 使 不 纯 性 降低 最 大 的 划分 s o 
然后 ， 使 用 划分 将 节点 1(: =1) 划 分 成 两 个 节点 :=2 和 + = Bo 

2) 在 :=2 和 t=3 上 分 别 重复 划分 搜索 过 程 。 

继续 树 生 长 过 程 ， 直 到 至 / POA E 


4.5 回归 树 


多 元 回归 分 析 是 一 个 老 工具 。 按 照 Draper 和 Smith(1980) [5] 的 说 法 ， 它 可 以 追溯 到 英 
国人 类 学 家 和 气象 学 家 弗朗西斯 . 高 尔 顿 (Francis Galton) + (1822—1911) 的 工作 。 回 归 
分 析 可 以 松散 地 定义 为 研究 一 个 依赖 (或 响应 ) 变量 和 一 组 独立 (或 预测 子 ) 变量 之 间 关 系 的 
方法 的 应 用 。 这 种 研究 通常 基于 对 象 集 上 测量 的 样 赤 。 这 一 过 程 与 决策 树 一 节 介绍 的 监督 学 
习 框架 非常 吻合 。 在 4. 5. 1 节 ， 我 们 将 介绍 一 种 简单 回归 任务 和 一 个 由 回归 树 学 习 方 法 得 到 
的 可 能 的 模型 。 \ = 


4.5.1 回归 树 的 一 个 例子 


Harrison 和 Rubinfeld(1978)[6j 描 述 了 一 个 有 趣 的 回归 应 用 。 在 该 应 用 中 ， 他 们 试图 使 
用 其 他 变量 预测 波士顿 地 区 的 房价 a。 他们 的 目标 是 检查 空气 污染 浓度 (NOX) 是 否 对 房价 有 
影响 。 他 们 收集 的 数据 包括 -506 个 观测 值 ， 每 个 观测 值 都 用 如 下 变量 描述 

。 MV (目标 变量 ): 房价 中 值 ( 以 千 美 元 为 单位 ) 。 

e CRIM: 犯罪 率 。 

e。 ZN: 特殊 用 途 土地 所 占 百分比 。 

e INDUS; 非 零售 业 百 分 比 。 

e CHAS; 如 果 在 Charles 河 为 1， 否 则 为 0。 

© NOX: 所 氧化 物 浓度 (ppm)。 


GINI psig (ss t) = 














HA —D & fo 7/3 Hf a 





e RM: 平均 房间 数 。 

e AGE; 1940 年 前 建造 的 房屋 所 占 百 分 比 。 

e DIS: 到 就 业 中 心 的 加 权 距 离 。 

® RAD. 到 干线 公路 的 可 达 性 。 

o TAX: 税率 。 

e P/T; ;小学生 7 教 师 比 ， 

eB: 直人 所 十 百分比 。 

eLSTAT: 低地 位 人 口 所 占 百 分 比 。 

根据 这 506 个 案例 ， 我 们 可 以 得 到 一 个 回归 模型 ， 从 而 捕 提 房价 对 其 他 变量 的 依赖 性 ， 
这 个 模型 不 仅 可 以 作为 未 来 案例 的 预测 工具 ， 而 且 也 将 充实 我 们 关于 变量 之 间 关 系 的 知识 。 
如 果 决 定 使 用 回归 树 学 习 方 法 ， 则 我 们 可 以 得 到 图 4-12 给 出 的 基于 树 的 模型 。 

回归 树 的 图 形 表示 具有 两 类 节点 。 圆 形 节点 表示 输入 变量 上 的 测试 六 而 方 框 是 树叶 站 表 
示 目 标 变量 的 预测 。 使 用 该 模型 预测 可 以 通过 如 下 方法 得 到 : 按照 输入 变量 上 测试 的 输出 ， 
让 检验 案例 沿 着 正确 的 分 支 在 树 上 “下 落 ”。 案 例 到 达 的 树叶 给 出 对 应 的 预测 。 


RM < 6.94 






True False 
LSTAT < 6.94 Çimsa > 
True False False 
True 
MV = 14.9 +0.6 Croxo >) C aE 
True False 
False True 


True 


DIS < 1.89 MV = 14.40 +4.3 “| False 


MV = 22.91 +0:4 









MV = 45.58 +8.8 
False 


True MV = 21.90 +0.2| | MV = 45.90 +1.6 
MV = 45.65 +8.7| [MV = 32.75 +1.1 


图 4-12 ”波士顿 住宅 数据 的 回归 树 
4.5.2 基于 树 的 回归 f 
基于 树 的 回归 模型 的 研究 可 追溯 到 Morgana 和 Sonquist[7](1963) 和 他 们 的 AID ( Automat- 
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ic Interaction Detection ， 上 自动 交互 检测 ) 程序。 然而 ， 这 方面 研究 的 主要 引文 一 一 直 是 Breiman 
和 他 的 同事 的 关于 分 类 与 回归 树 的 原创 性 著作 (1984 ) 。 这 些 作者 给 出 了 基于 树 模型 的 分 类 
与 回归 的 全 面 介绍 。 在 处 理 具有 大 量变 量 和 案例 的 领域 时 ， 基 于 树 的 回归 模型 以 其 简洁 性 和 
有 效 性 而 闻名 。 回归 树 使 用 快速 的 分 治 贪心 算法 来 构建 ， 该 算法 递归 地 将 给 定 的 训练 数据 划 
分 成 较 小 的 子 集 。 这 种 算法 的 使 用 是 这 些 方法 有 效 的 原因 ， 然 而 ， 由 于 基于 小 案例 样本 估计 
的 不 可 靠 性 ， 它 也 可 能 导致 树 的 较 低层 上 的 决策 质量 较 低 。 处 理 这 些 问题 的 方法 几乎 与 初始 
树 的 生长 一 样 重要 。 回归 树 可 以 看 作 如 下 形式 的 一 一 类 加 法 模型 [8, 9, 10, 11] ( Hastie 和 
Tibshirani, 1990): 


mes) = > Xie ep) (4.7) 
RP k 是 常量 ; 1(. ) 是 一 个 指示 函数 ， WRB MH PE 1, 否则 返回 0; D, 是 训练 数据 D 
的 不 相交 划分 ， 使 得 U D, = DFE N D, = © 
这 类 模型 有 时 称 作 分 段 常量 回归 模型 ( piecewise constant regression model) ， 因 为 它们 将 
顶 测 子 空间 X 划分 成 区 域 集合 ， 并 在 每 个 区 域 拟 合 一 个 常量 值 。 基 于 树 的 回归 模型 的 一 个 重 
要 特点 是 它们 用 树 的 形式 提供 了 这 些 区 域 的 前 置 逻辑 表示 。 由 树 根 到 树叶 的 每 条 路 径 对 应 一 
个 区 域 。 树 的 每 个 内 部 节点 是 一 个 预测 子 变量 上 的 测 逻 辑 试 。 在 二 元 树 的 特殊 情况 下 ， 测 试 
有 两 个 可 能 的 输出 : 真 或 假 。 这 意味 与 每 个 划分 D; 相关 联 ， 我 们 有 一 条 路 径 已 ， 它 由 预测 
变量 上 的 逻辑 测试 的 合 取 组 成 。 汪 我 们 想 更 好 地 理解 回归 面 时 ， 回归 函数 的 这 种 符号 表示 是 
一 个 重要 问题 。 
图 4-13 通过 回归 树 的 一 个 小 例子 ， 为 这 类 模型 给 出 了 一 个 说 明 。 


R =X; <3aX, < 1.5, k; = 60 

P, = X; <3 AX, =1.5, k, =100 

P, =X, > 3A X, < 4.0, k, = 45 

P, =X, =3n X, = 4.0, k, =30 
R] 4-13 回归 树 


由 于 从 根 节点 到 树叶 有 4 条 不 同 路 径 ， 因 此 这 棵 树 将 输入 空间 划分 成 4 个 不 同 的 区 域 。 
如 前 所 示 ， 每 条 路 径 上 测试 的 合 取 可 以 看 作 这 些 区 域 的 一 个 逻辑 描述 。 该 树 粗略 地 对 应 于 
图 4-14 所 示 的 回归 面 。( 假 定 只 有 两 个 预测 变量 AX.) 
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:图 4-14 回归 面 


使 用 式 (4.7) 更 简洁 地 表示 ， 我 们 得 到 : 
mlx) =60 xI(X, <3NX, <1.5) +100 xI(X, < IA 21.5) +45 x1(X, 23 NX, <4) 
+30 xI(X,=3 NX, =4) 

回归 树 使 用 递归 划分 (RP) 算 法 构建 。 该 算法 通过 递归 地 将 训练 样本 划分 成 较 小 的 子 集 
来 构建 树 。 我 们 将 粗略 介绍 该 算法 。RP 算法 接受 n 个 数据 点 的 集合 作为 输入 ， 并 且 当 特定 
终止 条 件 不 满足 时 ， 它 就 产生 一 个 测试 节点 :， 其 分 支 通 过 对 输入 数据 点 的 两 个 子 集 使 用 相 
同 的 算法 得 到 。 这 两 个 子 集 分 别 由 节点 上 上 的 逻辑 上 满足 划分 测试 * 的 案例 和 其 余 案例 组 
成 。 在 每 个 六 点 ， 根 据 茶 种 局 部 标准 ， 选 择 最 好 的 划分 测试 。 这 意味 着 是 一 种 贪心 的 爬山 
算法 。 


4.5.3 ”最 小 二 乘 方 回归 树 


大 部 分 常用 的 基于 未 知 回归 面 样本 的 构造 回归 模型 的 方法 都 试图 得 到 最 小 化 最 小 平方 误 
差 的 模型 参数 : 


LY n =r) (4.8) 


其 中 是 样本 大 小 ，<x;，7y; > EARE, mr, x;) ERN r(B, x) 对 案例 <x,, 
yi> 的 预测 。 
如 果 叶 值 (节点 值 ) 取 常数 ， 则 应 当 赋 予 使 用 最 小 平方 误差 标准 得 到 的 回归 树 的 树叶 的 
常量 是 每 个 树叶 ! 中 案例 的 目标 值 的 平均 值 。 
k, E Sy, (4.9) 


EE n 是 包含 在 树叶 1 中 的 案例 的 集合 D, 的 基数 ( 即 n = #D,) « 
有 些 系统 ， 如 RETIS( Karalic, 1992) #0 M5(Ouinlan ，1992) ， 在 树叶 中 使 用 其 他 非常 量 
模型 。 它 们 使 用 线性 多 项 式 ， 而 不 是 平均 值 。 
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关于 划分 规则 ， 我 们 只 介绍 二 元 树 的 情况 。 这些 树 的 每 个 内 部 节点 具有 两 个 后 代 节 点 。 
这 些 内 部 节点 根据 一 个 输入 变量 于 的 测试 结果 ,将 训练 实例 划分 成 两 个 子 集 。 满 足 测 试 的 案 
例 沿 着 左 分 支 ， 而 其 他 案例 沿 着 右 分 支 。 划 分 测试 选择 的 目标 是 改进 结果 树 的 拟 合 误差 。 从 
根 节点 到 节点 :的 一 条 路 径 对 应 于 输入 案例 的 一 个 划分 D,。 假 定 用 式 4.9 得 到 常数 ， 由 最 小 
平方 误差 标准 得 到 ， 我 们 定义 节点 :的 拟 会 误差 为 该 节点 中 实例 的 了 值 与 节点 常量 到 的 平方 
差 的 平均 值 。 


| Hee) 上 i He =k) (4. 10) 
H k, HAF 4.9 定 六 Ish, RTE TENRA HE RABCE : 
Br = EPO xB = x ES O- a A a (4.11) 


其 中 p(l) 是 案例 落 入 树叶 7 的 概率 ， ”是 训练 案例 的 TAL, n 是 树叶 1 中 的 案例 数 ， 7 是 树 7 
的 树叶 集合 。 

二 元 划分 将 案例 集 划分 成 两 个 子 集 ; 划分 规则 的 目标 是 选择 这 样 的 划分 : 它 使 该 划分 导 
致 的 树 的 误差 减 到 最 低 。 我 们 定义 划分 s 的 误差 为 结果 子 节点 误差 的 加 权 平 均 : 


n, n, 
Brr( s f) = ae x Err(t,) + = X Err(ta) (4. 12) 


现在 ， 我 们 已 经 准备 就 绪 ， 可 以 定义 给 定 候选 划分 集 3$ 时， 节点 的 最 佳 划分 。 

定义 4.1 REID s 是 属于 $ 的 划分 ， 它 使 下 式 最 大 化 : 
AErr(s, t) =Err(t) —Err(s, t) 

这 个 贪心 标准 指导 LS 回归 树 所 有 内 部 节点 的 划分 选择 。 在 RP 算法 的 每 次 迭代 中 ， 
估 每 个 预测 子 变量 的 所 有 可 能 划分 ， 并 选取 具有 最 好 AErr(s， 1) 的 划分 。 

关于 树 生 长 方法 的 最 后 一 个 问题 ( 即 停止 规则 ) ， 关键 问题 是 用 于 选择 划分 的 误差 评估 
的 可 徘 性 。 前 面 介绍 的 所 有 误差 度量 都 是 统计 意义 下 的 估计 ， 因 为 它们 都 是 训练 样本 的 函数 
(通常 称 作 再 代入 估计 )。 这 些 估 计 的 准确 率 (accuracy ) 在 很 大 程度 上 依赖 于 样本 的 质量 
(quality) 。 随 着 算法 递归 地 划分 原 训练 集 ， 划 分 使 用 越 来 越 小 的 样本 评估 。 这 意味 随 着 树 的 
生长 ,估计 变 得 越 来 越 不 可 靠 。 容 易 证 明 ， 在 树 生 长 期 间 ，AErr( 见 定义 4.1) 总 是 大 于 或 等 
TORA. 我 们 总 是 得 到 越 来 越 精确 的 回归 树 模 型 。 考虑 一 个 极端 情况 : 一 棵 过 分 大 的 
树 ， 每 个 树叶 只 有 一 个 训练 案例 ， 它 将 具有 零 误差。 | 

这 种 推理 的 问题 恰恰 是 由 于 得 到 估计 的 训练 案例 量 的 不 足 而 导致 的 估计 的 可 靠 性 问题 。 
基于 小 样本 的 估计 很 难 泛 化 到 未 知 案例 ， 因 此 导致 预测 准确 率 很 差 的 模型 。 这 通常 称 为 过 分 
拟 合 训 练 数 据 (overfitting the training data) 。 

有 两 个 替代 过 程 可 将 该 问题 最 小 化 。 第 一 个 是 制定 一 个 可 靠 性 标准 ， 确 定 何 时 应 当 停 止 
树 的 生长 。 在 基于 树 的 模型 中 ， 这 通常 称 为 先前 枝 (pre-prune)。 第 二 个 ， 也 是 最 常 使 用 的 
过 程 是 产生 一 棵 非常 大 的 (不 可 靠 的 ) 树 ， 然 后 对 它 进行 后 草 枝 (post-prune)。 回 归 树 的 前 枝 
古 得 到 准确 的 树 的 基本 步 又， 这 将 在 4.7 节 中 介绍 。 使 用 后 剪 枝 方法 ， 停 止 条 件 通常 是 非常 

“宽松 的 ” ， 因 为 还 有 一 个 后 剪 枝 阶 段 。 其 基本 思想 是 不 能 因为 过 早 地 停止 初始 生长 阶段 而 
“ER” 任何 可 能 的 、 好 的 后 剪 枝 树 。 一 种 经 常 使 用 的 标准 是 对 最 小 案例 数 加 以 限制 ， 一 
达到 就 强制 终止 RP 算法 。 停 止 标准 的 另 一 个 例子 是 ， 如 果 当 前 节点 的 误差 率 低 于 根 节点 的 
误差 率 的 某 一 比例 就 创建 一 个 树叶 。 
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4.5.4) LS 回归 树 的 有 效 生 长 


用 于 生长 回归 树 的 递归 划分 (RP) 算 法 的 计算 复杂 性 在 很 大 程度 上 依赖 于 给 定 节点 的 最 
佳 划 分 的 选择 。 这 一 任务 重新 尝试 每 个 输 六 变量 的 所 有 可 能 划分 。 一 个 变量 的 可 能 划分 数 依 
赖 于 它 的 类 型 。 下 面 将 给 出 用 于 生长 LS 回归 树 的 RP et 
算法 4.5.1 生长 LS 回归 树 。 
”输入 :n 个 数据 点 的 集合 | <xi vyi >1 ,i =1,…,n 
输出 :一 棵 回归 树 。 
方法 : 
IF 满足 终止 标准 THEN | 
创建 一 个 树叶 节点 ,并 将 了 个 数据 点 的 平均 y RFE 
Return 树叶 节点 


ELSE 
s”= < 任意 划分 > 
FOR 所 有 变量 Xx, DO 
IF xX, 是 标 称 变量 THEN 
最 佳 划 分 Xy =TryAllNominalSplits({ < Xi JYP XP) 
ELSEIF X, 是 数值 变量 THEN 
最 佳 划分 X, =TryAllNumericSplits(| <xi,yi>}, XV) 
ENDIF 
IF 最 佳 划分 Xx, HE s* THEN 
s = 最 佳 划分 x, 
ENDIF 
ENDFOR , 
用 ss” QUA t 
Left_branch (t) =GrowLStree( | <x; ,y; >: x,—s” |) 
Right_branch (t) =GrowLStree (| <x,;,y,; >: x,—s* }) 
ENDIF 


该 算法 的 主要 计算 量 是 尝试 变量 的 所 有 可 能 划分 。 评估 每 个 试验 划分 ， 这 意味 需要 得 到 
结 有 果子 节 点 模型 ， 以 便 计 算 它 们 的 误差 (比较 式 (4. 10) 和 式 (4.12) ) 。 假 定常 量 模型 由 式 
(4.9) 定 义 ， 我 们 需要 (对 划分 的 每 个 分 支 ) 计算 两 个 平均 值 ， 以 评 信 一 个 划分 (定义 4.1)。 
式 (4. 10) 实 际 上 类 似 于 计算 变量 方差 的 公式 。 这 一 计算 涉及 扫描 数据 两 次 ， 一 次 得 到 平均 
值 ， 而 第 二 次 计算 平方 差 。 这 一 开销 可 以 通过 使 用 如 下 等 价 公 式 降低 


2y 2 
Err(t) ea (4. 13) 


该 计算 可 以 通过 单 遍 扫 描 数据 完成 。 即 便 使 用 这 个 公式 ， 评 估 每 个 试验 划分 的 开销 仍然 为 0 
(m )。 使 用 允许 增 量 计算 一 个 变量 的 所 有 划分 的 化 简 ， 可 以 降低 这 一 开销 。 根 据 定义 41 给 出 的 
公式 ， 最 佳 划分 y 是 最 小 化 式 (4. 12) 给 定 的 值 的 划分 。 使 用 式 (4. 13) 中 的 公式 ， 我 们 得 到 


2y \2 Èy 2 
Err(s,t) -A [=] Dr。 [2] 
5 n, ` R 
n 


Mh, 
为 了 简化 记号 ， 令 SS, 和 SS# 分 别 等 于 Dy; 和 》 7, IFAS, 和 Sp 分 别 等 于 Dy: 和 
2 y 得 到 


t 


ny 
EX 
n, 

















(4.14) 
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Err(s, 2 =e ee (4. 15) 
容易 看 出 ， 无 论 被 评估 的 划分 是 什么 ， 该 公式 的 第 一 项 是 常量 。 这 是 因为 
D,=D, UD, 
因此 
t+ = Lr (4.16) 


这 意味 SSL + SSR 总 是 常量 ， 并 且 等 于 2 yi : 


这 意味 不 同 候选 划分 之 间 的 唯一 一 差别 在 于 最 后 一 项 。 这 种 化 简 对 于 评估 和 选择 节点 上 的 
最 佳 划 分 的 方法 具有 重要 意义 。 使 用 这 些 结果 ， 我 们 可 以 得 到 变量 的 最 佳 划 分 5° 的 新 定义 ， 
与 前 面 的 定义 (定义 4. 1) 相 比 ， 它 在 计算 效率 方面 具有 明显 优势 。 注 意 ， 仅 当 定 义 式 (4. 9 ) 
给 定 的 常量 模型 ( 即 假定 最 小 平方 误差 ) 时 这 种 化 简 才 是 有 效 的 。 由 于 我 们 的 目标 是 最 小 化 
先前 导出 的 表达 式 ， 因 此 得 到 节点 最 佳 划分 的 新 定义 。 
定义 4.2 最 佳 划 分 * 是 属于 5 的 划分 ， 它 使 下 式 最 大 化 
` paz (4.17) 
其 中 : 
SL = py and S, = EE 


正如 我 们 在 下 面 几 节 将 看 到 的 ， 这 个 定义 可 以 对 任意 预 预测 变量 的 所 有 候选 划分 5 快速 、 
增 量 地 求 值 。 


4. 5.5 连续 变量 上 的 划分 


现在 ， 我 们 给 出 一 个 算法 ， 它 使 用 定义 4. 2 的 结果 找 出 连续 变量 的 最 佳 划 分 。 假 定 我 们 
有 一 个 具有 个 案例 的 集合 ， 其 y 值 和 为 5,。 算 法 4.5.2 得 到 连续 预测 变量 X, 上 的 最 佳 
划分 。 

算法 4. 5.2 找 出 连续 变量 的 最 佳 划分 。 

WA: n 个 案例 ， 它 们 的 Y 值 和 (S,)， 变 量 Xv 

输出 : Xy 上 最 佳 制 点 划分 

方法 : 按 x, 上 的 值 对 案例 排序 

Sp =S,7S, =0; 

ng =N n, =0; 

BestTillNow =0 

FOR 所 有 的 实例 2 二 Do 

Sr =S, + ¥y7Sp =Sp -Y; 

n, =n, +1/;npg =n, -1 

IF (Xi +1,V>Xi,v) THEN % 如果 值 相等 ， 则 无 试验 

NewSplitValue = ( Si /ny) + (Sk /na) 

IF (NewSplitValue > BestTillNow) THEN 

BestTillNow =NewSplitValue 

BestCutPoint = (X;,1,v +X;,v) /2 

ENDIF 

ENDIF 

ENDFOR 
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(这 里 ，X;, 表 示 变 量 X, 排序 后 的 第 i 个 值 ) 

这 个 算法 主要 有 两 个 部 分 。 第 一 部 分 按 所 考虑 的 变量 的 值 对 实例 进行 排序 。 使 用 快速 排 
序 ， 其 平均 复杂 度 为 0(n, log n,)。 对 于 以 有 效 的 方式 快速 试验 所 有 的 割 点 值 ， 排 序 操作 是 
必要 的 。 我 们 只 需要 尝试 这 些 割 点 值 ， 因 为 只 有 它们 才 可 能 改变 定义 4.2 中 的 分 值 ， 因 为 它 
们 改变 了 分 到 左 和 右 分 支 的 案例 集 。 算 法 的 第 二 个 相关 部 分 是 所 有 候选 划分 的 评估 。 试 验 划 
分 数 最 多 为 n, -1( 如 果 变 量 的 所 有 变量 的 值 都 不 相同 ) 。 如 果 没 有 定义 4.2 给 定 的 等 式 ， 
我 们 必须 计算 候选 划分 的 每 个 划分 的 “方差 ”。 


4. 5.6 离散 变量 上 的 划分 


标 称 (或 离散 ) 变 量 上 的 划分 通常 涉及 尝试 所 有 可 能 的 形 如 XX, =x, 的 检验 ， 其 中 * 是 变 
量 X, 的 一 个 可 能 的 值 。 如 果 有 许多 可 能 的 值 ， 则 通常 生成 较 大 的 树 。 另 一 种 方法 是 不 用 二 
义 树 ， 而 是 对 变量 的 每 个 可 能 值 产生 一 个 分 支 。 这 会 增加 训练 样本 划分 ， 这 导致 不 可 靠 估 计 
的 速度 比 二 元 划分 更 快 。 男 一 种 选择 是 考虑 形 如 XX, s | x,…| 的 测试 。 这 种 方法 需要 附加 的 
计算 开销 ;尽管 它 可 以 改善 结果 树 的 可 理解 性 ， 并 上 且 不 会 对 训练 案例 进行 过 度 划分 。 
Breiman 等 (1984 ) 证 明了 一 个 有 趣 结果 。 

Breiman 4 (1984) 建议 的 方法 涉及 一 个 初始 阶段 ， 其 中 将 节点 的 实例 排序 如 下 : 

BRE B 是 X, 的 值 的 集合 ， 它 出 现在 当前 节点 :中 ( 即 B=1b; x, etx, =b}), HEX 
y(b,) HEE X, 上 的 值 等 于 4, 的 实例 的 了 的 平均 值 ， 我 们 对 这 些 值 排序 ， 使 得 

y(b,) Sy( by) S++ Sy ( bsg) 
eh BB. bP OR St, 2: SO Se 

变量 的 值 按 这 种 方法 排序 后 ，Breiman 和 他 的 同事 证 明了 节点 1 中 离散 变量 XX 上 的 最 佳 
划分 是 这 #8B -1 个 划分 中 的 二 个。 

这 个 定义 源 于 Fisher (1958) 对 回归 的 最 小 二 乘 方 误差 标准 证 明 的 一 个 定理 ， 并 被 
Breiman 和 他 的 同事 (1984，9.4 节 ) 推 广 到 较 大 的 四 的 不 纯 ( 误 差 ) 函数 类 。Chou(1991 ) 进 一 
步 将 这 些 结果 推广 到 任意 个 箱 ( 即 不 限于 二 元 划分 ) 和 其 他 误差 函数 。 使 用 这 种 方法 ， 我 们 
只 需要 考察 #B -1(# 表 示 和 集合 中 元 素 的 个 数 ) 个 而 不 是 2#B -1 子 集 。 注 意 ， 我 们 仍 需 要 “ 扫 
描 ”" 所 有 数据 ， 得 到 值 yb, MEB 个 元 素 排序 操作 。 在 给 出 离散 划分 算法 之 前 ， 我 们 用 一 
个 例子 解释 这 种 方法 。 

例 4.3 假设 我 们 在 节点 上 有 如 表 4-17 所 示 的 实例 ， 
得 到 平均 值 

y( 绿 ) = (24 +29 +13)/3 =22 

y( 红 ) =(56+45)/2 =50.5 

y( 蓝 ) = (120 +100)/2=110 

如 果 我 们 按照 对 应 的 了 值 对 这 些 值 排序 ， 我 们 得 到 
{ 绿 ， 红 ， 蓝 }| 。 根 据 Breiman 定理 ， 最 佳 划 分 将 是 #B -1 
(这 里 为 3 -1=2 个 划分 中 的 一 个 , BX, e4 MXA Ee 
{ 绿 ， 红 } 之 一 。 

按 前 面 介 绍 的 方法 对 实例 排序 后 ， 我 们 使 用 如 下 增 量 算法 ， 它 类 似 于 连续 变量 的 算法 。 

算法 4.5.3 找 出 离散 变量 的 最 佳 划分 。 

输入 : ,个 案例 ， 它 们 的 y 值 和 (5,) ， 变 量 X,。 


表 4-17 例子 4-3 的 实例 
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输出 : X, 值 的 有 序 集合 和 该 集合 的 一 个 划分 。 
,方法 : edt 
得 到 与 ,Xv 的 每 个 值 相 关联 的 Y 平 均值 
按照 与 xX, 的 每 个 值 相关 联 的 Y 平 均值 对 Xx, 值 排序 
Sp = SE =07 
PR =ne7nr=07 
“l BestTillNow =0 
FOR 得 到 的 有 序 值 集 的 每 个 值 b “Do 
YB =X, 等 于 的 案例 的 Y 值 和 
NB =X, 等 于 b 的 案例 数 
Sr =S, + YB;S, =S, - YB 
ng =n, +NB;nz =Ag -NB 
NewSplitValue =S, = (S,*/n,) + (Sp? /nx) 
IF (NewsplitValue > BestTillNow) THEN 
BestTillNow =NewsplitValue 
BestPosition= 有 序 值 集中 b 的 位 置 
ENDIF Panes i 
- ENDFOR 


4.5.7 模型 树 


模型 树 推广 了 回归 树 的 概念 。 回 归 树 在 其 每 
个 级 别 具 有 常量 值 ( Written- 和 Frank , 2000 ) 
[12] 。 因 此 它们 类 似 于 分 段 线性 函数 (因此 是 非 
线性 的 ) 。 回 归 树 的 计算 量 随 着 维度 的 增加 而 迅 
速 增加 。 模 型 树 能 够 有 效 地 学 习 ， 并 且 可 以 处 理 
多 达 数 百 属性 的 很 高 的 维度 ( 见 图 4-15)。 与 回 
归 树 相 比 ， 模 型 树 的 主要 优点 是 比 回归 树 小 得 
多 ,决策 能 力 是 明显 的 ， 并且 回 归 函 数 一 般 并 不 
涉及 许多 变量 。 . 

一 个 称 作 MS, 算法 (M5 algorithm) 的 算法 用 
于 归纳 模型 树 (Quinlan，1992) ， 其 过 程 如 下 





Y ( 输出 ) 


图 4-15 回归 模型 


假设 可 用 的 训练 实例 的 集合 为 7。 每 个 实例 用 一 组 固定 (输入 ) 属 性 的 值 刻画 ， 并 有 一 个 相 
关联 的 目标 (输出 ) 值 。 目 标 是 构造 一 个 模型 ， 将 训练 案例 的 目标 值 与 输入 属性 值 联系 起 来 。 模 
型 的 质量 通常 用 它们 预测 未 知 案例 目标 值 的 准确 率 来 度量 。 特 征 空间 的 回归 树 如 图 4-16 所 示 。 
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图 4-16 模型 回归 树 
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基于 树 的 模型 采用 分 治 方法 构造 。 集 合 了 或 者 与 一 个 树叶 相关 联 ， 或 者 选择 某 个 测试 ， 
根据 测试 的 输出 将 了 划分 成 子 集 ， 并 且 对 这 些 子 集 递 归 地 应 用 相同 的 过 程 。MS 模型 树 算法 
的 划分 标准 是 ， 将 到 达 一 个 节点 的 类 值 的 标准 差 看 作 该 节点 误差 的 度量 ， 并 计算 该 误差 的 期 
望 减 少 作为 该 节点 上 每 个 属性 的 检测 结果 。 计 算 标准 差 减少 ( SDR ) 的 公式 是 ， 
sa T,) (4.18) 
其 中 ,7 表示 到 达 该 节点 的 实例 的 集合 ，7, 表示 具有 第 i 个 可 能 输出 的 实例 子 集 ，sd 表示 标 
准 差 。 

考察 所 有 可 能 的 划分 之 后 ， MS 选择 期 望 误差 减少 最 大 的 划分 。 当 到 达 一 个 节点 的 实例 
只 有 少许 不 同 或 者 只 剩 下 少量 实例 时 ，M5 的 划分 停止 。 不 断 地 划分 通常 产生 过 分 复杂 的 结 
构 ， 因 此 必须 剪 枝 。 例 如 ， 用 一 个 树叶 替换 一 棵 子 树 。 在 最 后 阶段 ， 使 用 光滑 过 程 ， 抵 消 剪 
村 后 的 树叶 上 邻近 线性 模型 之 间 不 可 避免 地 出 现 的 尖峰 不 连续 性 。 对 于 用 较 少 训练 实例 构造 
的 茶 些 模型 ， 这 一 步 尤 其 重要 。 在 光滑 时 ， 用 这 样 的 方式 修改 相 邻 的 线性 方程 ， 使 得 对 应 于 
人 不同 方程 的 相 邻 的 输入 向 量 的 预测 输出 值 变 得 接近 。 这 一 过 程 的 细节 可 以 在 Quinlan (1992) 
中 找到 ， 并 且 由 Witten 和 Frank( 2000) 给 出 : 

M5 模型 树 的 水 文学 应 用 的 一 个 例子 如 下 : 


If Qt s 751.2: 
and if OF .AL 29.7: DMI (903/5.66%) 
Else if Qt > 28.7: LM2 (379/13.1%) 
Else Qt > 51.2: LM3 (572/66.7%) 


下 面 是 产生 的 线性 模型 : 
M1; Qt+3 = +0.0118 +0. 317REt +0. 124REt -1 +0. 0844REt -2 -0. 109REt -3 
+1. 09Q¢ -0.08260 - 1 
LM2: Qt +3 = -0.262 +11. 9REt +0. 182REt -1 +8. 9REt -2 —0. 198REt -3 +3. 6601 
— 0. 0826Qt -267Qt -1 
LM3: Qt +3 =15.5 +25. 7REt +7. 59REt - 1-0. 0923REt -3 +1. 44Qt -0.7320 -1 


4.6 具有 未 知 类 值 数 据 的 类 预测 的 一 般 问题 


决策 树 的 一 个 作用 是 预测 类 未 知 的 数据 集 的 类 值 。 当 我 们 使 用 它 已 做 重要 决策 时 ， 应 当知 
道 可 以 在 多 大 程度 上 依赖 决策 树 预 测 的 类 值 。 或 者 说 ， 我 们 的 决策 树 对 未 来 数据 集 的 预测 效 
果 如 何 。 为 了 理解 依赖 我 们 构造 的 树 进行 决策 所 涉及 的 风险 ， 我 们 将 从 不 同 的 角度 考察 学 习 
问题 。 

假定 给 学 习 算 法 (决策 树 算法 ) 提 供 一 系列 形 如 [对 AX), [XL AX], IR 
实例 。 学 习 算法 返回 一 个 逼近 目标 函数 /的 假设 h。 为 了 进 二 步 简化 ， 假定 我 们 有 如 图 4-17 
所 示 的 训练 实例 ， 假 定 函 数 妃 zx) 是 连续 变量 。 

假设 我 们 (使 用 不 同 的 学 习 算法 ) 得 到 图 4-18 所 示 的 假设 。 

假设 C 太 简单 “只 有 两 个 点 接近 该 直线 。 

假设 尺 和 呈 通 近 训 练 案例 一 样 好 ， 但 在 如 何 对 未 知 输入 赋值 方面 有 差别 。 由 于 7 了 是 未 知 
的 ， 因 此 没有 理由 认为 8B ERE, 

一 般 来 说 ， 如 果 两 个 假设 逼近 f 的 效果 一 样 好 ， en TN eR Te she 
尼 鸭 一 个 对。 





SDR = sd(T) - pa 
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图 4-17 待 学 习 的 数据 集 





图 4-18 不 同 算法 得 到 的 假设 


科学 界 有 一 个 由 来 已 久 的 传统 : 在 其 他 条 件 相 同 的 情况 下 ， 简单 的 理论 比 复杂 的 理论 更 
可 取 。 这 被 称 作 Occam #1] 77(Occam’s Razor), L 中 世纪 哲学 家 William Occam 的 名 字 命 名 。 
Occam 阐 刀 制 掉 理 论 的 哲学 毛发 。 其 基本 思想 是 : 最 好 的 科学 理论 是 揭示 所 有 事实 的 最 简单 
理论 。 正 如 爱 因 斯 坦 的 名 言 所 说 “应 该 是 每 件 事 都 尽 可 能 简单 ， 但 不 是 更 简单 ”当然 Ear 
事情 都 隐藏 在 “其 他 条 件 相同 ”中 ,并且 很 难 客观 地 评估 某 个 理论 是 否 确实 “解释 ” 了 它 所 基 
于 的 所 有 事实 一 一 这 正 是 科学 界 在 争论 的 一 个 问题 。 

所 有 表现 出 偏爱 的 学 习 算法 都 呈现 归纳 偏 倚 (inductive bias), Ockham 谭 刀 偏爱 拟 合 数 
据 的 最 简单 假设 。 这 种 偏 傈 将 更 喜欢 假设 。 如 果 没 有 某 种 类 型 的 归纳 偏 倍 ， 泛 化 将 是 不 可 
能 进行 的 。 没 有 泛 化 ， 我 们 就 不 可 能 决定 如 何 对 以 前 从 未 遇 到 的 情况 做 出 反应 - 

为 了 进一步 理解 泛 化 概念 ， 我 们 考虑 另 一 个 简单 例子 。 考 虑 图 4-19 所 示 的 数据 。 假设 
4 通过 所 有 的 点 。 假 设 B 并 未 通过 所 有 的 点 ,但 是 它 确实 抓 住 了 数据 的 一 般 趋 热 。 在 这 里 ， 
我 们 宁愿 用 假设 8 来 预测 未 知 数据 (其 f(x) 值 未 知 的 x) 的 函数 值 。 假设 4 过 分 拟 合 数 据 。 
如 何 避 免 过 分 拟 合 ? 在 决策 树 的 情况 下 ， 我 们 能 够 总 是 划分 节点 ， 直到 得 到 纯 节 点 。 如 果 我 
们 这 样 做 ， 树 就 变 得 非常 大 ， 并 且 过 分 拟 合 数据 。 这 时 ， 问 题 是 何 时 停止 分 裂 节点 ? 这 个 问 
题 导致 了 前 枝 概念 的 产生 。 
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图 4-19 “理解 泛 化 和 拟 合 数据 误差 


4.7 HEFE 


4.1 7 Bl) 4. 6 节 介 绍 的 方法 使 用 一 种 递归 划分 训练 集 的 算法 得 到 一 棵 树 。 这 样 做 的 结果 
尽 ， 随 着 树 的 生长 ， 最 佳 划分 的 选择 基于 越 来 越 小 的 样本 来 进行 。 树 的 较 低 层 上 划分 选择 通 
常会 变 得 统计 上 不 可 靠 ， 尽管 基于 训练 数据 的 误差 估计 (所 有 节点 中 误 分 类 的 数据 总 数 在 数 
据点 总 数 中 所 占 的 比例 ) 持 续 降 低 。 通 常 不 太 可 能 认为 这 种 误差 估计 可 以 泛 化 到 未 见 过 的 案 
例 上 ， 并 且 称 树 过 分 拟 合 训练 数据 。 这 意味 树 捕获 了 训练 样本 的 规律 ， 而 不 是 得 到 样本 的 领 
域 (总 体 ) 的 规律 。 这 就 是 修剪 树 模型 的 动机 。 然 而 ， 正 如 Schaffer[ 13] 所 指出 的 ， 前 枝 不 可 
能 视 为 改善 树 预测 误差 的 统计 手段 。 事 实 上 ， 很 容易 找到 一 个 现实 世界 领域 ， 前 校对 于 独立 
的 、 大 量 检验 样本 而 言 ， 会 降低 预测 准确 率 。 相 反 ， 正 如 Schaffer[ 13] 所 建议 的 ， 前 枝 应 当 
被 视 为 优先 选择 较 简 单 的 模型 。 理 解 不 同 剪 枝 方法 的 偏 倚 将 对 选择 最 适合 用 户 偏爱 的 策略 提 
供 有 用 的 提示 。 

后 剪 枝 是 一 个 过 程 ， 通 过 该 过 程 产生 一 棵 大 树 ; 然后 使 用 可 靠 的 评估 方法 选择 对 初始 模 
型 而 言 “ 尺 寸 合适 的 ” 剪 枝 后 的 树 。 后 前 枝 方法 是 计算 低 效 的 ， 即 通常 可 以 找到 一 个 领域 ， 
其 中 具有 数 千 个 节点 的 大 树 经 过 后 剪 枝 得 到 具有 数 百 个 节点 的 树 。 显 然 这 会 造成 计算 上 的 浪 
费 。 一 种 替代 的 方法 是 ， 一 旦 进一步 划分 被 认为 是 不 可 靠 的 ， 就 尽快 停止 树 的 生长 。 这 就 是 
所 谓 的 树 的 先 剪 枝 。 与 后 剪 枝 相 比 ， 先 剪 枝 具 有 明显 的 计算 优势 。 事 实 上 ， 我 们 可 以 较 早 地 
停止 树 的 生长 ， 并 且 还 可 以 避免 后 剪 枝 。 然 而 ， 过 所 地 停止 树 的 生成 会 使 这 种 方法 面临 选择 
次 最 优 树 的 危险 (Breiman 等 ，1984) [1]。 正 因为 如 此 ， 通 常 避 免 过 分 拟 合 的 方法 是 后 前 枝 。 

对 于 后 前 枝 , 已 经 考虑 了 两 种 大 不 相同 的 操作 : 子 树 置换 (subtree replacement) 和 子 树 
提升 (subtree raising) 。 在 每 个 节点 ， 学 习 方 案 可 以 决定 是 应 该 进行 子 树 置换 、 子 树 提 升 ， 还 
是 保留 子 树 不 剪 枝 。 

THER: 子 树 置 换 是 主要 的 前 枝 操 作 ， 我 们 首先 来 介绍 它 。 其 基本 思想 是 选择 某 些 子 
树 ， 并 用 单个 树叶 置换 它们 。 例 如 ， 图 4-20 中 的 整个 子 树 涉及 一 个 内 部 节点 和 3 个 叶 节 点 ， 
它 被 一 个 类 值 为 "Yes ”的 树叶 所 置换 。 这 可 能 导致 训练 集 的 准确 率 下 降 ， 因 为 如 果 原 来 的 树 
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由 4.1 节 ~4.4 节 介绍 的 算法 产生 ， 算 法 将 继续 构造 树 ， 直 到 所 有 的 叶 节 点 是 纯 的 为 止 (或 
者 卫 到 所 有 的 属性 都 被 测试 为 止 ) 。 然 而 ， 它 可 能 提高 在 独立 选取 的 检验 集 上 的 准确 率 。 





图 4-20 子 树 置换 


在 进行 子 树 置换 时 ， 从 树叶 向 上 到 根 进行 处 理 。 例 如 ， 在 图 4-21 中 ”将 考虑 用 一 个 叶 
节点 置换 “卫生 计划 贡献 子 树 的 3 个 子女 节点 。 假 设 决定 进行 这 个 置换 ， 则 继续 沿 树叶 向 
E, 考虑 用 一 个 叶 节 点 置换 “每 周 工作 小 时 ” 子 树 (现在 它 有 两 个 子女 节点 )。 


第 一 年 工资 提高 


> 2.5 


< 2.5 
ALKA.) 
36 ans > 10 eke 


<4 >4 
a) b) 
图 4:21 一 棵 用 于 剪 枝 操作 的 树 


子 树 提升 : 第 二 个 剪 枝 操作 * 子 树 提升 "更 复杂 。 考 虑 图 4-22。 这 里 ， 考 虑 对 图 4-22a 中 
的 树 剪 枝 ， 结 果 显示 在 图 4-22b 中 。 从 C 向 下 的 整个 子 树 被 “提升 " 以 置换 B 子 树 。 注 意 ， 
尽管 B 和 C 的 子 树 显示 为 树叶 ， 但 是 它们 可 以 是 整 棵 子 树 。 当 然 ， 如 果 进 行 该 提升 操作 ， 
则 必须 考虑 将 标记 为 4 和 5 的 节点 上 的 实例 重新 分 类 到 以 C 开始 的 新 子 树 中 。 这 就 是 该 节点 
的 于 女 用 1'、2' 和 3' 标 记 的 原因 一 一 指出 它们 与 原来 的 子女 1、2 和 3 不 同 ， 差 别 在 于 包含 
了 原来 被 4 和 5 覆盖 的 实例 。 
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图 4-22 子 树 提升 的 例子 ， 其 中 节点 C 被 “提升 ”以 包含 节点 B 
于 树 提升 可 能 是 一 种 耗 时 的 操作 。 在 实际 实现 时 ， 一 般 只 提升 最 普遍 分 支 的 子 树 。 也 就 
是 说 ,在 图 4-22 所 示 的 例子 中 ， 倘 车 从 BBC 的 分 支 的 训练 实例 比 从 B 到 4 或 从 B 到 5 的 
分 文 多 ， 我 们 就 考虑 进行 提升 。 否 则 ， 如 果 4 是 B 的 多 数 子女 ， 我 们 将 考虑 提升 节点 4 oe 
换 B， 并 将 C 下 以 及 5 的 所 有 实例 重新 分 类 到 新 节点 。 
剪 枝 算法 


图 4-23 的 决策 树 使 用 CART 算法 学 习 得 到 。 该 树 构建 后 在 60 个 实例 上 脸 验 ， 这 个 决策 
树 也 用 来 评审 多 种 决策 树 前 枝 方法 ， 





类 1 类 2 
图 4-23 部 分 被 前 枝 的 决策 树 的 例子 
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决策 树 剪 枝 可 以 视 为 决策 树 构造 的 逻辑 延续 ，、 有 两 个 重要 原因 : 降低 决策 树 的 规模 和 提 
高 它 的 准确 率 。 

有 三 种 剪 枝 方法 : 代价 复杂 性 剪 枝 `、 最 小 误差 剪 枝 和 悲观 误差 剪 枝 。 两 种 方法 (代价 复 
杂 性 剪 枝 和 悲观 误差 剪 枝 ) 给 出 相同 的 建议 一 一 剪 去 节点 i EMP, (eRe) TT 
法 建议 保留 该 子 树 。 

在 关于 决策 树 ie 达到 的 结果 也 不 同 : 有 些 方法 产生 更 准确 的 决策 树 ， 有 些 
方法 产生 规模 较 小 的 决策 树 。 结 论 是 剪 枝 可 以 将 归纳 决策 树 的 准确 率 提 高 达 25% [14]. 

RT E ARTE TAR : nt Hoe wy CART( Brein man 等 )[ 1] 剪 校 算 法 。 它 由 两 个 基本 步 
又 组 成 : 

1 ) 根 据 某 种 局 发 式 方法 选择 一 系列 子 树 。 

2 ) 根 据 这 些 树 的 真 误差 率 的 估计 选择 最 佳 树 T, o 

第 一 步 的 基本 思想 是 通过 剪 去 符合 以 下 条 件 的 分 支 从 T, RA OT; 这 些 分 文中 每 个 被 
剪 树叶 的 表面 误差 率 (apparent error rate) 增 加 最 小 。 

当 树 了 在 节点 守 被 剪 枝 时 ， 它 的 表面 误差 率 增加 R(t) -R(T,)， 而 树叶 的 数量 减少 
No | -lo 这样, 下 面 的 比率 





度量 每 个 被 剪 树叶 的 表面 误差 率 的 增加 [17]。 算 法 对 每 棵 子 树 ( 第 一 棵 除外 ) 计算 w， 并 选 


择 具 有 最 小 a 值 的 子 树 进 行 剪 梳 。 
为 了 解释 这 一 点 ， 我 们 考虑 图 4-23 中 的 节点 uo WE 
Nr = 子 树 7, PAARL, Nr, =3。 
r(t) = 节点 1 的 误差 率 , r(t) =7/16。 
p(t) = 子 树 + 上 数据 所 占 的 比例 ,p(ts) =16/60。 
R(t) = 节点 t 的 误差 代价 ， 如 果 该 子 树 被 均 校 。 
R(T,) = 子 树 T, 的 误差 代价 。 WRAT AA BY AW 


i = 子 树 树 叶 。 
于 是 
Rés,) =r op ci xan 
并 且 
$ De Z2 3.9 5 
R(T„) = ERG) = (5 al Natal ea 
这 样 ， 
7/60 -5/60 1 
i eye 0166 
如 果 我 们 选择 剪 去 节点 te 上 的 子 树 ， 则 
Ny = 
7 3 
R(t, ) =| 7 xz] =60 
并 且 
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这 样 ， 


现在 ， 让 我 们 看 一 看 如 果树 在 节点 t 前 枝 ， 每 个 被 剪 校 的 树叶 的 表面 误差 率 将 如 何 
增加 。 


N, c=4 
并 且 
R(Ts) = ŁR(i) -| | da | +( rer == 
这 样 ， 


9/60 —5/60 
SRR OME EE ay 


= 4/180 ~0. 0222 


最 佳 树 是 子 树 在 节点 被 剪 枝 后 得 到 的 树 (参见 图 4-24) ， 因 为 其 a 值 最 小 ， 并 且 树 的 规模 
比 在 节点 te 前 校 得 到 的 树 小 。 





类 类 2 
图 4-24 剪 校 后 的 决策 树 


最 小 误差 剪 枝 : Niblett 和 Bratko[ 18] 提 出 了 一 种 方法 ， 寻 找 这 样 一 棵 树 : 在 对 独立 的 数 
据 集 分 类 时 ， 使 期 望 误差 率 最 小 。 

设 给 定 集合 中 的 类 数 为 上 大， 节点 上 中 训练 实例 的 总 数 为 (区 ， 而 节点 上 寺中 属于 类 C 的 训 
练 实 例 数 为 nc.(t) ， 则 该 期 望 误差 率 用 如 下 公式 计算 : 

n(t) 一 Pei) +k-1 

x n(t) +k 

剪 枝 方法 如 下 所 示 。 在 树 的 每 一 个 非 叶 节 点 ， 计 算 子 树 被 剪 梳 的 期 望 误差 率 Eo PR 
使 用 每 个 分 支 的 误差 率 ， 按 照 每 个 分 支 的 观测 值 的 比例 加 权 ， 计 算 节 点 不 甬 术 的 期 望 误差 
率 。 如 果 前 去 节点 会 产生 较 大 的 期 望 误 差 率 ， 则 留 下 子 树 ， 否 则 剪 掉 它 [16，17j 。 


E, (4. 20) 
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。 如 果子 树 不 剪 枝 
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剪 枝 的 期 望 误 差 更 大 ， 因 此 决定 不 前 校 。 
对 于 市 扩 4 ， 期 望 误差 率 如 下 : 


e 如 果子 树 被 剪 枝 
16-94+2-1 8 1444 
ba 16 +2 I 
。 如 果子 树 不 剪 村 : 
ee fe eh sri (a 
By, = 7g * 0.3775,+16| ae ) ~0. 3697 


| DUH EAR ARE BK, AUR READIES ERE RTF 
类 的 个 数 。 

悲观 误差 剪 枝 : 这 种 剪 校 方法 由 Quinlan 提出 ， 并 且 当 前 用 于 C4.5， 目 的 是 避免 使 用 独 
立 的 检验 数据 集 [16] 。 翡 观 剪 枝 基 于 误差 数 和 训练 样本 的 大 小 。 

如 采 N(z) 是 节点 1+ 上 的 训练 集 实例 数 ， 而 e(t) 是 节点 + 上 被 误 分 类 的 实例 数 ， 则 误 分 类 
率 的 估计 为 : 





_ e(t) 
r(t) = Ws) (4. 21) 


连续 性 校正 误差 率 是 : 


ra (4. 22) 
据 此 ， 子 树 7, 的 误 分 类 率 为 : 
人 (4.23) 
其 中 i 遍 取 子 树 的 树叶 。 这 样 ， 校 正 后 的 误 分 类 率 是 : 
ne) = RDA) arr ni : (4. 24) 
其 中 N, 是 节点 + 上 的 树叶 数 [16]。 


使 用 训练 数据 ， 子 树 总 是 比 对 应 的 节点 产生 的 误差 小 ， 但 是 使 用 校正 后 的 数字 时 却 并 非 
如 此 ， 因 为 它们 依赖 于 树叶 数 ， 而 不 仅仅 是 错误 数 。 算 法 仅 维持 这 样 的 子 树 : 其 校正 后 的 数 
字 比 节点 的 数字 好 一 个 标准 差 [14]。 

标准 差 计算 方 法 如 下 : 


SE[n'(T,)] = EAT A (4.25) 


n'(t) =e(t) +1/2 


其 中 ,对 于 节点 有 


而 对 于 子 树 有 
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| n'(T,) = Leti) eN 2 
因此 ， 如 果子 树 的 校正 后 的 误 分 类 个 数 大 于 节点 的 校正 后 的 误 分 类 个 数 ， 该 剪 枝 方法 建议 前 
掉 子 树 。 
例如 ， 节 点 右上 校正 后 的 误 分 类 数 是 : 
nt, R172 二 人 省 
而 子 树 的 校正 后 的 误 分 类 个 数 是 : 
n'(T,) =(2+0+3) +3/2 =6.5 


op 6.5% botiau a 


HF 6.5 +1/96 =8.46, 大 于 7.5， 因 此 该 子 树 将 被 前 枝 。 

这 种 方法 有 一 些 优点 : 相同 的 训练 集 用 于 树 生长 和 树 剪 枝 ， 并 且 它 非常 快 ， 因 为 只 需要 
扫描 一 次 并 考察 每 个 节点 一 次 [16]。 

na FF AL BS Ae: 临界 值 剪 枝 方 法 由 Mingers 提出 ， 包 括 如 下 两 个 基本 步骤 [14] : 

1 ) 关 于 增加 的 临界 值 对 Taa BY AX 0 

2 ) 通 过 度量 整个 树 的 显著 性 和 它 的 预测 能 力 ， 在 剪 枝 树 序 子 列 中 选择 最 佳 树 。 

尽管 这 种 方法 是 一 种 后 剪 校 方法 ,但 是 它 与 先前 枝 技 术 非 常 相似 。 在 创建 原始 树 时 ， 一 
种 划分 优良 度量 确定 节点 上 的 属性 。 这 个 度量 值 反 映 了 所 选择 的 属性 的 优良 程度 。 

在 实践 中 ,对 于 每 个 节点 ,该 方法 计算 子 树 的 最 大 “信息 增益 ”并 且 如 果 该 值 小 于 某 
个 国 值 就 剪 去 一 个 节点 [15]。 

降低 误差 剪 枝 : 这 是 Quinlan 提出 的 另 一 种 方法 ， 它 使 用 独立 的 样本 检验 每 梨子 树 的 准 
确 率 ， 与 它 被 剪 枝 时 的 准确 率 比 较 。 该 方法 如 下 : 

从 整个 树 开 始 ， 并 对 检验 数据 分 类 。 对 于 每 一 个 非 叶 节点 ,统计 保留 该 子 树 和 通过 前 枝 
将 其 变 成 树叶 的 误 分 类 个 数 。 在 检验 数据 上 ， 被 剪 去 的 节点 产生 的 错误 通常 比 子 树 更 少 。 错 
误 个 数 之 差 用 于 度量 树 剪 枝 增益 。 对 于 所 有 的 节点 ， 选 择 差 最 大 的 子 树 作为 被 剪 枝子 树 
[16]。 这 种 方法 的 优点 是 每 个 节点 只 访问 一 次 ， 评 估 对 它 剪 枝 的 机 会 。 


”4.8 ”模型 评估 


评估 是 使 数据 挖掘 取得 实际 进展 的 关键 。 在 数据 挖掘 过 程 的 最 后 阶段 ， 使 用 一 种 或 多 种 
归纳 学 习 技 术 得 到 模型 之 后 ， 仍 然 还 存在 一 些 重要 问题 : 

1 ) 如 何 验 证 和 确认 模型 ? 

2) 对 于 一 个 具体 问题 ， 使 用 哪 种 方法 ? 

3) 如 何 将 一 种 方法 与 男 一 种 比较 ? | 

自 先 ; 我 们 来 区 分 一 下 确认 (validation) 和 验证 (verification ) 这 两 个 概念 。 

模型 确认 用 合格 检验 证 明 模 型 在 其 应 用 范围 内 ,按照 用 户 确定 的 目标 ， 以 满意 的 正确 率 
进行 工作 。 换言之 ;在 模型 确认 中 ， 我 们 证 实数 据 转换 为 模型 ， 并 且 它 在 表示 被 观测 系统 方 
面具 有 足够 精度 。 模 型 确认 处 理 构 造 正 确 的 模型 一 一 对 应 于 系统 的 模型 。 

at acu a 具有 足够 精度 的 新 表示 。 模 型 验证 处 理 正确 地 构 





er 结果 通过 检验 过 得 加 以 确认 和 验证 。 某 些 检验 用 来 评估 模型 的 行为 的 正确 性 
( 即 确认 ) ， 而 另 一 些 检验 旨 在 评估 数据 转换 成 模型 的 正确 性 ( 即 验 证 ) o 
我 们 有 训练 集 ， 当 然 可 以 在 训练 集 上 考察 方法 的 不 同 之 处 。 但 是 我 们 已 经 看 到 模型 在 训 
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练 集 上 的 性 能 绝对 不 能 很 好 地 指示 模型 的 性 能 ， 因 为 在 非 独 立 的 检验 集 上 ， 模型 可 能 过 分 拟 
合 数据 ， 从 而 给 出 不 准确 的 结果 。 我 们 需要 基于 能 够 得 到 的 数据 上 的 实验 预 预测 实际 性 能 界限 
的 方法 。 

在 有 丰富 的 数据 可 用 时 不 存在 问题 : 在 一 个 大 训练 集 上 构造 模型 ， 并 在 另 二 个 大 检验 集 
上 检验 它 。 但 是 ， 尽 管 数据 挖掘 有 时 涉及 “大 数据 ”( 特别 是 在 营销 、 销售 和 顾客 支持 应 用 
中 ) ， 但 是 通常 数据 (高 质量 的 数据 ) 是 短缺 的 。 

基于 有 限 数据 预测 性 能 是 一 个 有 趣 并 且 一 直 有 争议 的 问题 。 

如 采样 本 数量 较 小 ， 那 么 数据 挖掘 实验 的 设计 者 就 必须 非常 小 心地 划分 数据 。 如 何 将 样 
本 划分 成 子 集 没有 现成 的 指导 原则 。 无 论 如 何 划分 数据 ， 都 应 当 明 白 ， 不 同 的 随机 划分 ， 即 
使 训练 集 和 检验 集 都 具有 给 定 的 规模 ， 也 将 导致 不 同 的 误差 估计 。 

下 面 来 讨论 一 下 将 数据 集 划分 为 训练 和 检验 样本 的 不 同方 法 ， 通常 称 作 子 抽 样 方法 (re- 
sampling method ) 。 使 用 子 抽样 方法 估计 和 选择 模型 与 使 用 分 析 方 法 相 比 的 主要 优点 是 , -前 
者 不 依赖 于 关于 数据 统计 分 布 的 假定 或 逼近 函数 的 特定 ， 性 质 。 子 抽样 技术 的 主要 缺点 是 计算 
量 大 且 基 于 子 抽样 策略 估计 方差 较 高 。 

模型 估计 的 基本 方法 是 : 首先 使 用 二 部 分 数据 集 准 备 或 发 现 模型 ; 然后 使 用 其 余 样 本 评 
们 该 模型 的 预测 风险 。 第 一 部 分 数据 称 为 学 习 集 (learming set)， 而 第 二 部 分 数据 称 为 确 认 集 
(validation set) ， 也 称 为 检验 集 ( testing set) 。 这 种 补 素 策略 (naive strategy ) 基于 如 下 假定 : 
学 习 集 和 确认 集 是 作为 相同 的 、 未 知 的 数据 分 布 的 代表 而 选取 的 。 对 于 大 型 数据 集 的 确 如 
此 ,但 是 对 于 较 小 的 数据 集 ， 这 种 策略 具有 明显 的 缺点 。 如 果 样 本 数 较 小 . 划分 数据 的 具体 
方法 对 模型 的 准确 率 有 所 影响 。 各 种 子 抽样 方法 用 于 较 小 的 数据 集 ， 并 且 它 们 也 因 用 于 划分 
初始 数据 集 的 策略 而 异 。 我 们 将 提供 一 些 数据 挖掘 常 急用 的 子 抽样 方法 的 简单 介绍 ， 而 数据 挖 
据 系 统 的 设计 者 必须 根据 数据 和 问题 的 性 质 进行 选择 。 

再 代入 方法 : 这 是 最 简单 的 方法 。 所 有 可 用 的 数据 都 用 于 训练 和 检验 。 换 句 话说 ， 训 练 
和 检验 集 相同 。 “数据 分 布 ”的 误差 率 估计 是 偏向 乐观 的 (估计 的 误差 通常 比 模型 实际 应 用 期 
望 的 误差 低 ) ， 因 此 这 种 方法 很 少 在 现实 世界 的 数据 挖掘 应 用 中 使 用 。 在 样本 大 小 与 维度 的 
比 不 大 时 尤其 如 此 。 


4.8.1 交叉 确认 : 保持 方法 


现在 考虑 训练 和 检验 数据 量 有 限时 该 如 何 做 。 保 持 方 法 (holdout method) 为 检验 保留 一 
定数 量 的 样本 ， 并 使 用 其 余 样本 进行 训练 (如 果 需 要 的 话 ， 用 一 部 分 样本 进行 确认 )。 在 实 
践 中 ， 通 常 为 检验 保留 1/3 数据 ， 而 使 用 其 余 2/3 数据 进行 训练 。 

不 同 的 划分 将 产生 不 同 的 估计 。 重 复 该 过 程 ， 随 机 选择 不 同 的 训练 和 检验 集 ， 并 将 误差 
结果 集成 到 一 个 标准 参数 中 将 改善 模型 的 估计 。 这 是 误差 率 估 计 的 重复 保持 (repeated hold- 
out) 方 法 。 

根据 所 使 用 的 用 于 选择 训练 和 检验 集 的 抽样 类 型 ， 基 本 有 两 种 保持 方法 。 抽样 可 以 是 有 
放 回 或 无 放 回 的 。 下 面 两 种 方法 使 用 无 放 回 抽样 ， 而 最 后 一 种 方法 使 用 有 放 回 抽样 ; 

留 一 方法 : 模型 使 用 (n -1) 个 样本 训练 ， 而 在 剩 不 的 一 个 样本 上 上 评估。 这 种 方法 重复 n 
次 ,适用 大 小 为 (n -1) 的 不 同 训 练 集 。 这 种 方法 的 计算 量 很 大 ， 因 为 必须 构造 和 比较 nn 个 
不 同 的 模型 。 \ 

轮转 方法 (n ERA): 这 种 方法 是 保持 和 留 二 方法 的 折衷。 它 将 可 用 的 样本 划分 成 
已 个 不 相交 的 子 集 ， 其 中 1<P<n。(P=1) 个 子 集 用 于 训练 ， 而 剩 下 的 一 个 子 集 用 于 检验 。 
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这 是 实践 中 最 常用 的 方法 ， 特 别 是 对 样本 数 相对 较 小 的 问题 尤其 如 此 。 

自助 方法 : 前 面 说 过 ， 当 一 个 样本 从 数据 集中 取出 以 形成 训练 或 检验 集 时 ， 样 本 被 抽出 
而 不 放 回 。 也 就 是 说 ,一 旦 被 选中 ,相同 的 样本 不 能 被 再 次 选中 。 这 就 像 挑选 足球 队员 ， 你 
不 可 能 两 次 选择 同一 个 人 。 但是， 数据 机 实例 与 人 不 同 。 大 部 分 学 习 方 案 可 以 两 次 使 用 相同 
的 实例 ， 并 且 如 果实 例 在 训练 集 出 现 两 次 ， 会 使 得 学 习 结 果 不 同 。( 拘泥 数学 的 人 会 说 ， 如 
末 相 同 的 对 象 可 以 多 次 出 现 ， 实 际 上 根本 不 能 说 “集合 ”。) 

日 助 方法 的 基本 思想 是 对 数据 集 进行 有 放 回 抽样 ， 以 形成 训练 集 。 我 们 将 介绍 一 种 变 
形 ， 神 秘 地 (但 其 理由 很 快 就 会 清楚 ) 称 作 0. 632 自助 法 (0. 632 bootstrap), AIEA n^ 
实例 的 数据 集 有 放 回 地 抽样 n 次， 产生 男 一 个 有 n 个 实例 的 数据 集 。 由 于 第 二 个 数据 集中 的 
茶 些 元 素 ( 几 乎 肯定 ) 是 重复 的 ， 因 此 原 数 据 集中 一 定 有 一 些 实例 未 被 选中 。 我 们 将 使 用 这 
些 实例 作为 检验 实例 。 | 

一 个 实例 未 被 选 到 训练 集中 的 可 能 性 有 多 大 ? 实例 每 次 被 选中 的 概率 是 1/n， 因 此 不 被 
选中 的 概率 为 (1 -1/n)。 将 它 乘 以 挑选 机 会 次 数 n， 结 果 一 个 具体 的 实例 完全 未 被 选中 的 可 
能 性 为 


(1 ~~) ea 36k 
n 


(其 中 e 是 目 然 对 数 的 底 2. 7183 ， 不 是 误差 率 !) 这 样 ， 对 于 大 小 合理 的 数据 集 ， 检 验 集 将 包 
KA 36. 8% 的 实例 ， 而 训练 集 将 包含 大 约 63. 2% (现在 你 知道 为 什么 称 它 为 0. 632 自助 法 
本) 。 有 些 实例 将 在 训练 集中 重复 出 现 ， 导 致 它 的 总 规模 为 上 ， 与 原 数 据 集 的 规模 相同 。 

通过 在 训练 集 上 训练 学 习 系 统 ， 然 后 在 检验 集 上 计算 它 的 误差 ， 这 样 得 到 的 数字 将 是 真 
实 误 差 率 的 悲观 估计 。 因 为 尽管 训练 集 的 大 小 为 n,， 但 是 只 包含 了 63% 的 实例 ， 这 与 10 折 
交叉 确认 使 用 的 90% 的 实例 不 是 公平 的 比较 。 为 了 对 此 进 进行 补偿 ， 将 该 检验 误差 率 与 训 
练 集 上 再 代入 误差 相 结合 。 正 如 我 们 前 面 告诫 的 ， 再 代入 误差 是 真实 误差 的 过 于 乐观 的 估 
计 ， 它 自己 不 能 用 作 误 差 估 计 。 但是， 自助 过 程 将 它 与 检验 误差 率 相 结合 ， 给 出 最 终 的 误差 
{hit e 如 下 : 

e =0. 632e py 9-14 +0. 368e yee 9-15 

然后 ， 将 整个 目 助 过 程 重 复 多 次 ， 使 用 不 同 的 替代 样本 作为 训练 集 ， 并 且 对 结果 取 平 
均值 。 , 


4.8.2 模型 比较 


通过 数据 挖掘 过 程 使 用 不 同 的 归纳 学 习 技 术 实 现 的 模型 可 以 使 用 标准 误差 率 参数 作为 其 
性 能 度量 进行 评估 。 这 个 值 表示 真实 误差 率 的 一 种 近似 ， 一 个 统计 学 习 理论 定义 的 参数 。 误 
差 率 使 用 通过 再 抽样 技术 得 到 的 检验 数据 集 计 算 。 除 用 误差 率 度量 的 准确 率 之 外 ， 数 据 挖掘 
模型 还 可 以 用 它们 的 速度 、 鲁 棒 性 、 可 伸缩 性 和 可 解释 性 来 比较 。 而 且 ， 所 有 这 些 参 数 都 会 
影响 模型 的 最 终 验证 和 确认 。 在 下 面 的 简略 概述 中 ， 我们 对 分 类 任务 解释 误差 率 参 数 的 特 
性 ， 类 似 的 方法 和 分 析 可 以 用 于 其 他 常见 的 数据 挖掘 任务 。 

误差 率 的 计算 基于 检验 过 程 的 错误 计数 。 对 于 分 类 问题 ， 这 些 错误 简单 地 定义 为 误 分 
类 (将 样本 错误 分 类 ) 。 如 果 所 有 的 错误 都 同等 重要 ， 则 误差 率 RR 是 错误 数 EE 除 以 检验 集 
中 的 样本 数 5$。 模 型 的 正确 率 A 是 被 正确 分 类 的 检验 数据 所 占 的 比例 ， 并 且 用 1 减 误差 率 
计算 。 

对 于 标准 的 分 类 问题 ， 可 能 有 多 达 m -m 类 错误 ， 其 中 m 是 类 的 数目 。 如 果 只 有 两 个 
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类 ( 正 样 本 和 负 样 本 ， 用 符号 7 和 下 或 用 1 和 0 表示 ) ， 我 们 只 可 能 有 两 类 错误 : 

。 预期 为 了， 但 错误 地 分 类 为 卫 : 这 些 是 假 阴性 错误 。 

© 预期 为 f, 但 错误 地 分 类 为 7: 这 些 是 假 阳性 错误 。 

如 果 多 于 两 个 类 ， 错 误 类 型 可 以 用 表 4-18 所 示 的 混淆 和 矩阵 汇总 。 对 于 类 数 世 =3, #6 
个 错误 类 型 (m -m =3° -3 =6)， 它 们 在 表 4:18 中 用 粗 体 字 表 示 。 在 这 个 例子 中 ， 等 个 类 
包含 30 个 样本 ， 共 有 90 个 检验 样本 。 RE 

这 个 例子 的 误差 率 是 10/90， 总 对 应 的 正确 率 为 80790 

至 此 ， 我 们 考虑 每 个 错误 都 一 样 不 好 。 在 许多 数据 挖掘 应 用 中 ， 假 定 所 有 的 错误 都 具有 
相同 的 权重 是 不 能 接受 的 。 因此， 应 当 记 录 各 种 错误 的 差别 ， 并 且 误 差 率 的 最 终 度 量 要 考虑 
这 些 差别 。 当 不 同类 型 的 错误 与 不 同 的 权重 关联 时 ， 我 们 需要 用 给 定 的 权重 因子 c, 乘 以 误差 
每 种 类 型 。 如 果 混 消 矩 阵 的 误差 元 素 是 es ， 则 总 代价 函数 C( 它 取代 准确 率 计算 中 的 错误 数 ) 
可 以 用 下 式 计算 : 

2 cies 
表 4-18 ,3 个 类 的 混淆 矩阵 


4.8.3 代价 敏感 的 学 习 


在 两 类 情况 下 ， 有 一 种 简单 而 有 效 的 方法 使 得 任意 学 习 方案 都 是 代价 敏感 的 。 其 基本 思 
想 古 通过 产生 yes 和 no 实例 所 占 比 例 不 同 的 数据 样本 ， 使 得 学 习 方 法 是 代价 敏感 的 。 假 设 
人 为 地 将 数据 集中 no 实例 增加 10 倍 ,然后 使 用 该 数据 集 进行 训练 。 如 果 学 习 方案 力求 使 错 
误 数 最 小 化 ， 则 它 将 产生 一 个 决策 结构 ， 朝 着 避免 no 实例 上 的 错误 倾斜 ， 因 为 这 种 错误 实 
际 上 被 10 倍 地 加 以 处 罚 。 如 果 使 用 no 实例 所 占 比 例 未 变 的 数据 进行 检验 ， 则 在 no 实例 上 
的 错误 将 比 在 yes 实例 上 的 错误 少 ( 即 假 阳性 错误 将 比 假 阴性 错误 少 ) , 因为 假 阳 性 的 权重 是 
假 阴 性 的 10 倍 。 于 是 产生 了 一 种 通过 改变 训练 集中 实例 的 比例 建立 代价 敏感 分 类 结构 的 一 

改变 训练 实例 比例 的 一 种 方法 是 复制 数据 集中 的 实例 。 然 而 ， 许 多 学 习 方 案 支持 实例 被 
加 权 的 。 缺 失 值 可 以 用 以 下 方法 提供 : 在 建立 决策 树 时 通过 使 用 数值 加 权 方 案 , 在 概念 上 将 
实例 划分 成 片段 ， 并 将 它 的 某 个 部 分 传送 到 每 个 分 支 。 

实例 的 权重 通常 初始 化 为 1。 为 了 构造 代价 敏感 的 决策 树 ， 可 以 将 它们 初始 化 为 两 类 错 
误 ( 假 阳性 和 假 阴 性 ) 的 相对 代价 。 


习题 


1. 判断 对 错 。 
1) 如 果 P(41B8) =P(4), W P(ANB) =P(A)P(B), 
2) 因 为 决策 树 学 习 对 离散 值 输出 分 类 ， 而 不 是 对 实数 值 函数 分 类 ， 因 此 它们 不 可 能 过 分 
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. 概率 分 布 [0 : 0625; 0:0625; 0:125; 0:25; 0 :5] 的 入 是 多 少 ? 


汽车 保险 例子 。 假 定 训练 数据 库 具 有 两 个 属性 : 年 龄 和 汽车 类 型 。 


” 年 龄 一 一 序数 属性 。 
。 汽车 类 型 一 一 分 类 属性 。 
° mL: 低 ( 风险) ’ H; 高 (风险 ) o 
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使 用 ID3 算法 得 到 一 棵 决策 树 。 


. 你 被 搁浅 在 一 个 荒 岛 上 。 岛 上 到 处 都 长 满 了 蘑菇 ， 但 是 找 不 到 其 他 食物 。 有 些 蘑 车 已 被 


确定 是 有 毒 的 ， 而 其 他 无 毒 (通过 先前 同伴 的 试验 和 错误 而 确定 ) 。 你 是 唯一 留 在 荒 岛 上 
的 人 。 你 有 如 下 数据 : 


实例 厚实 否 AUR 有 斑点 否 光滑 否 有 毒 否 
人 0 0 0 0 0 
B 0 0. i 0 0 
C 1 1 0 1 0 
D 1 0 0 1 l 
E 0 1 1 0 1 
F 0 0 1 1 1 
G 0 0 0 1 1 
H 1 l 0 0 1 
U 1 1 1 l ? 
V 0 1 0 1 ? 
W 1 1 0 0 ? 





你 知道 蘑菇 A -H BARE, (RA U~W 是 否 有 毒 。 对 于 前 两 个 问题 ， 只 考虑 A ~ H。 

1) AET WOES b>? | 

2) 你 应 当选 择 哪 个 属性 作为 决策 树 根 节点 ? (提示 : 你 可 以 通过 观察 数据 断定 ， 而 不 必 计 
算 所 有 4 个 属性 的 信息 增益 。) 

3) 使 用 ID3 算法 构造 一 棵 决策 树 ， 并 预测 案例 UL V 和 W。 

4) 使 用 CART 算法 梅 造 一 棵 决策 树 ， 并 预测 案例 U、V AW. 

5) 使 用 CHAID 算法 构造 一 樟 决策 树 ， 并 预测 案例 U、V 和 W。 


. 假定 你 是 所 得 税 部 门 的 高 级 官员 。 你 得 到 了 应 当 纳 税 的 纳税 人 以 往 记 录 的 代表 样本 。 下 


面 的 表 显 示 了 这 些 数 据 。 导 出 一 棵 决策 树 提醒 执法 部 门 。( 取 划 分 点 为 800K， 将 “纳税 收 
入 ”转换 成 二 元 变量 。) 
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Tid 政府 雇员 婚姻 状况 纳税 收入 逃税 
l 是 单身 1250K 否 
2 T 已 婚 1000K 人 否 
3 否 单身 700K 否 
4 是 已 婚 1200K 否 
5 T 离婚 950K 是 
6 否 已 婚 600K T 
7 是 离婚 2200K 否 
8 否 单身 950K 是 
9 否 已 婚 750K 否 

10 T 单身 90K T 





6. 假定 你 是 学 院 的 篮球 队 队 长 。 根 据 下 表 给 出 的 记录 ， 设 计 一 种 赢得 下 场 比赛 的 策略 。 








地 点 时 间 Sachin 首发 Girish 进攻 Girish 防御 对 手中 锋 结果 
学 院 7pm 是 中 锋 前 锋 高 Fw 
学 院 7pm k 前 锋 中 锋 矮 imi 
大 学 Tpm 是 前 锋 前 锋 高 W 
大 学 9pm 是 HUE 前 锋 KE 输 
学 院 7pm 是 中 锋 中 锋 高 Wh 
大 学 7pm 是 中 锋 中 锋 RE 赢 
大 学 9pm 是 中 锋 前 锋 E 输 
学 院 7pm 是 中 锋 中 锋 IR 赢 
学 院 7pm 是 中 锋 前 锋 矮 im 
学 院 7pm 是 中 锋 前 锋 高 Dh 

7. 对 下 表 所 示 数 据 ， 使 用 D3, CART 和 CHAID 算法 构造 决策 树 。 

党 | Mo %3 y x) x NS y 
低 低 低 低 中 中 高 中 
低 低 高 低 中 高 低 高 
低 中 低 中 中 高 高 高 
低 中 高 低 高 低 a 高 
低 高 低 高 高 低 高 高 
低 高 高 中 高 中 低 高 
中 低 低 中 高 中 高 高 
中 低 高 中 高 高 低 高 
中 中 低 中 高 高 高 高 


8. 对 下 表 所 示 数 据 ， 使 用 ID3 、CART 和 CHAID 算法 构造 决策 树 。 


i 





> T 否 
T 否 ; 是 
二 F a 
是 T P 
否 e ` 是 
是 是 是 
a) 是 T 
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9. 下 图 给 出 各 种 飞机 的 图 像 , :我 们 希望 建立 一 个 系统 ， 可 以 将 飞机 分 成 国产 和 进口 两 类 。 
为 了 简化 该 问题 ， 我 们 假定 不 处 理 图 像 理 解 过 程 。 一 种 计算 机 视觉 预 处 理 程序 考察 飞机 
图 像 ， 并 提取 我 们 分 类 时 必须 考察 的 相关 特征 。 在 这 个 例子 中 ,我 们 严格 关注 使 得 计算 
机 可 以 进行 这 种 分 类 的 知识 的 获得 。 该 过 程 从 识别 感 兴 趣 的 飞机 属性 以 及 它们 的 可 能 值 
开始 。 这 在 表 4-19 给 出 。 知 识 工 程 师 或 专家 必须 开发 用 来 导出 规则 的 实例 集 。 在 我 们 的 
例子 中 ， 图 像 所 具有 的 相关 特征 和 它 的 分 类 ( 国产 或 进口 ) 描 述 每 幅 图 像 。 这 些 在 表 4-20 
中 。 实 例 和 矩阵 称 作 归纳 文件 (induction file ) 。 
使 用 ID3 算法 产生 最 小 树 ， 从 而 是 最 简单 的 可 能 规则 。 





PLR Ze 发 动机 BLE. HKH HG 类 别 
中 1 ae 机 头 雪茄 形 进口 
中 l z 机 头 圆滑 进口 
低 1 短 平 机 头 圆滑 进口 
高 2 突出 机 身 粗大 国产 
高 1 突出 tLe 粗大 国产 
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BOS 数据 挖掘 的 预 处理 和 后 处 理 


5.1 引言 


数据 挖掘 过 程 最 重要 的 步骤 之 一 是 初始 数据 集 的 准备 和 变换 。 这 项 任务 在 研究 界 不 太 受 
重视 ， 主 要 是 因为 该 步骤 过 多 地 考虑 具体 应 用 。 但 是 ， 在 大 部 分 数据 挖掘 应 用 中 ,有 时 数据 
准备 过 程 的 某 些 部 分 ， 甚 至 整个 过 程 都 可 以 独立 地 看 作 数据 挖掘 方法 的 应 用 。 对 于 一 些 数据 
集 非常 大 ,并且 通 常 分 布 在 各 处 的 公司 ， 一 些 数据 准备 任务 可 以 在 设计 数据 仓库 时 进行 ， 但 
是 许多 具体 的 数据 变换 只 能 在 需要 数据 挖掘 分 析 时 才能 进行 。 

原始 数据 很 难 用 于 数据 挖 气 。 可 能 需要 对 其 做 一 些 变换 ， 产 生 对 诸如 预测 或 分 类 这 样 的 
1 对 选择 数据 挖掘 方法 更 有 用 的 特征 。 在 大 部 分 情况 下 ， 找 到 给 定 方法 /应 用 的 最 佳 变 换 需 要 
人 的 协助 。 

在 数据 挖掘 文献 中 ,数据 准备 有 时 被 看 作 小 问题 而 不 予 考虑 ， 而 是 把 它 作为 数据 挖掘 过 
程 的 一 个 阶段 。 在 实际 的 数据 挖掘 应 用 中 ， 人 情况 正好 相反 。 用 在 数据 准备 上 的 工作 量 比 用 在 
使 用 数据 挖掘 方法 上 的 工作 量 还 多 。 在 5. 2 节 中 ,我 们 将 简略 介绍 不 同 的 预 处 理 任务 ， 它 们 
在 对 数据 使 用 数据 挖掘 算法 之 前 进行 。 


5.2 数据 预 处 理 的 步骤 


选择 对 象 表 示 : 知识 发 现 过 程 的 输入 是 数据 库 ， 即 对 象 的 集合 。 作 为 给 定 问题 的 单位 ， 
数据 对 象 必须 用 一 组 基本 描述 形式 化 地 描述 。 因 此 ， 我 们 必须 选择 适当 的 对 象 表示 。 最 常用 
的 选择 是 对 象 的 属性 表示 。 称 作 属性 (attribute ) 的 基本 性 质 用 来 描述 实际 对 象 。 一 个 对 象 用 
属性 和 值 的 列表 描述 。 每 个 属性 具有 一 个 可 能 的 值 域 。 根 据 属性 域 的 组 织 ， 我 们 可 以 区 分 三 
种 基本 属性 类 型 : 符号 的 (离散 的 、 标 称 的 、 分 类 的 ) 、 连 续 的 (数值 的 ) 和 结构 化 的 。 

映射 和 收集 数据 : :选择 合适 的 表示 后 ， 我 们 选择 度量 对 象 的 属性 (根据 领域 专家 的 建议 
或 使 用 “ 蛮 力 "方法 ) 。 此 外 ， 我 们 还 必须 确定 属性 的 名 称 和 它们 的 值 的 名 称 。 收集 的 数据 映 
射 到 某 个 命名 约定 上 并 用 一 致 的 形式 表示 。 

缩放 大 型 数据 集 : 实践 中 , ,学习 算法 假定 数据 都 位 于 主 存 中 ,. 并 且 在 只 能 看 到 有 限 个 数 
据 时 ， 并 不 关心 算法 如 何 处 理 非常 大 的 数据 库 。 解 决 该 问题 的 可 能 方法 有 多 种 ， 例 如 使 用 窗 
口 、 批 增 量 模式 。 ; 

处 理 噪声 和 销 误 : 通常 有 两 种 类 型 的 错误 。 外 部 (external) 错误 是 从 系统 之 外 的 世界 引 
进 的 ( 随机 错误 和 噪声 ) 。 内 部 (internal ) 错误 是 学 习 ( 数 据 挖 掘 ) 系统 本 身 的 不 好 的 性 质 导 致 
的 。 例 如 ， 局 发 式 搜索 或 性 能 标准 不 佳 。 

处 理 未 知 属性 值 : 在 处 理 现实 世界 的 数据 时 ， 一 个 特别 重要 的 问题 是 处 理 未 知 的 (缺失 
的 ) 属性 值 。 在 处 理 未 知 的 属性 值 时 ， 需 要 考虑 一 些 重要 因素 。 最 重要 的 因素 之 一 是 “未 知 
性 ”的 源 : 山 一 个 值 缺 失 是 因为 它 被 遗忘 或 丢失 。@@ 对 于 给 定 的 对 象 ， 某 些 属性 是 不 适当 
的 。 例 如 ， 对 于 给 定 的 对 象 ， 它 不 存在 。@ 在 给 定 的 背景 下 ， 属 性 值 是 不 相关 的 。@@ 对 于 给 
定 的 观测 值 ， 训 练 数据 库 的 设计 者 并 不 关心 某 属性 的 值 ( 因此 称 作 不 关心 的 值 ) 。 
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数值 属性 的 离散 化 或 模糊 化 : 有 些 学 习 算法 只 能 处 理 符号 或 分 类 数据 。 然 而 ， 现 实 世 界 
的 问题 既 涉 及 符号 属性 ， 也 涉及 数值 属性 。 因 此 ， 一 个 重要 问题 是 将 数值 (连续 ) 属性 离散 
化 。 这 一 任务 可 以 离线 ( 预 处 理 ) 进行 ， 也 可 以 在 线 ( 动态 离散 化 ) 进行 。 该 过 程 的 一 种 自然 
扩展 是 数值 属性 的 模糊 化 。 

处 理 连 续 类 : 与 上 面 的 问题 类 似 的 问题 是 连续 类 的 处 理 。 大 部 分 符号 归纳 算法 要 求 离 散 
的 (符号 ) 类 。 然 而， 在 大 部 分 应 用 中 ， 我 们 面 对 的 是 连续 (数值 ) 类 。 类 似 于 上 面 的 问题 ， 
可 以 使 用 两 种 方法 : 离线 或 在 线 划 分 。 

符号 属性 值 分 组 : 一 个 众所周知 的 问题 是 ， 对 于 归纳 决策 树 和 推导 决策 规则 ， 具 有 很 多 
值 的 属性 在 选择 最 富有 信息 的 属性 的 过 程 中 将 被 过 高 估计 。 为 了 克服 过 高 估计 问题 ， 可 以 将 
多 值 属性 的 值 分 成 两 个 或 多 个 子 集 。 

属性 选择 和 定 序 对 于 给 定 的 目标 ， 我 们 不 能 确保 所 有 的 属性 都 提供 信息 。 在 现实 世界 
的 数据 中 ， 数 据 的 表示 通常 使 用 了 过 多 属性 ， 但 其 中 只 有 少量 属性 可 能 与 目标 概念 相关 。 属 
性 选择 和 定 序 过 程 将 有 助 于 解决 这 一 问题 。 它 们 根据 属性 提供 信息 的 多 少 确定 输入 属性 集 的 
顺序 ， 然 后 选择 提供 信息 最 多 但 规模 相对 较 小 的 属性 子 集 。 

属性 构造 和 变换 : 找 出 问题 表示 的 合适 属性 是 一 项 耗 时 和 困难 的 任务 。 对 于 目标 概念 ， 
如 果 属 性 不 合适 ， 那 么 数据 挖掘 (学 习 ) 可 能 是 困难 的 或 者 是 不 可 能 的 。 为 了 克服 这 一 问题 ， 
系统 要 能 够 产生 (构造 ) 新 的 合适 的 属性 。 完 成 这 件 事 有 两 种 不 同 的 方法 : 属性 构造 和 属性 
变换 。 

一 致 性 检查 : 对 于 数据 库 中 的 不 一 致 性 ， 它 们 也 许 不 能 被 前 面 的 预 处 理 步 又 消除 。 有 两 
种 处 理 数 据 不 一 致 性 的 一 般 方法 。 第 一 种 是 “离线 ”方法 ， 即 通过 预 处 理 程 序 或 在 数据 挖掘 
过 程 本 身 中 处 理 。 另 一 种 可 能 的 方法 是 利用 知识 发 现 过 程 的 循环 机 制 ， 即 返回 到 前 面 的 某 个 
步 又， 并 对 不 同 的 参数 重新 执行 。 

现在 ,我 们 详细 介绍 这 些 预 处 理 步骤 中 的 某 些 步 又。 


5; 3 ,离散 化 


很 多 机 器 学 习 和 统计 学 技术 都 只 能 用 于 完全 由 标 称 变量 组 成 的 数据 集 。 然 而 ， 实 际 中 的 
许多 数据 集 包 含 连续 变量 一 一 在 区 间或 比率 级 测量 的 变量 。 解决 该 问题 的 一 种 方法 是 将 数值 
变量 的 值 域 划分 成 一 些 子 域 ， 并 将 每 个 子 域 看 作 一 个 类 别 。 这 种 将 连续 变量 划分 成 不 同类 别 
HITLER Bs PRAY B FAL ( discretization ) 。 

近年 来 ， 已 经 开发 了 各 种 离散 化 方法 。Dougherty、Kohavi 和 Sahami [1] 给 出 了 这 方面 
工作 的 系统 总 结 ， 其 中 对 离散 化 技术 从 两 个 方面 进行 了 说 明 : 监督 的 (supervised) 45 aE K% 
”的 (unsupervised) ， 全 局 的 (global) 与 局 部 的 (local)。 

非 监 督 的 离散 化 过 程 只 使 用 变量 值 的 分 布 信息 划分 变量 。 相 比 之 下 ， 监 督 的 过 程 还 使 用 
每 个 实例 的 分 类 标号 。 典 型 的 非 监 督 技 术 包 括 : 

1) 等 区 间 宽 度 方 法 ， 其 中 值 域 简单 地 化 分 成 等 宽 的 子 域 。 

2) 等 频 方 法 ， 其 中 值 域 被 划分 成 包含 相同 数目 实例 的 子 域 。 

3) 更 复杂 的 非 监 督 方法 使 用 聚 类 分 析 技 术 ， 识 别 最 大 化 组 内 相似 性 、 最 小 化 组 间 相 似 
性 的 划分 。 

通常 ， 监 督 技 术 试图 使 划分 变量 与 类 标号 之 间 联 系 的 某 种 度量 最 大 化 。 方 法 包括 : 

1 ) 度量 联系 强度 的 炉 或 信息 增益 [2]。 | 

2)X 检验 确定 哪些 组 应 当 合并 ，ChiMerge[ 3 ] 算 法 使 用 这 种 方法 。 
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监督 技术 被 理所当然 地 认为 能 产生 更 准确 的 分 类 树 ， 因 为 它们 产生 的 划分 直接 与 所 预测 
的 类 相关 。 男 一 方面 ， 人 们 可 以 预料 大 部 分 非 监 督 技 术 的 速度 明显 较 快 ， 因 为 除了 对 数据 排 
序 之 外 ， 它 们 不 太 涉 及 其 他 操作 ， 而 排序 是 所 有 离散 化 方法 的 共同 操作 。 

全 局 离散 化 过 程 在 构建 决策 树 过 程 开始 之 前 作用 于 整个 数据 集 。 这 样 ， 当 给 定 的 变量 在 
树 中 出 现时 ， 它 将 在 相同 的 点 划分 。 与 之 相反 ， 局 部 离散 化 过 程 在 树 构造 时 被 应 用 到 与 树 节 
点 相关 联 的 实例 子 集 。 这 样 ， 随 着 树 的 构建 ， 相 同 的 变量 可 能 离散 化 多 次 ， 最 终 的 树 可 能 包 
含 相同 变量 的 多 种 划分 。 

由 于 局 部 离散 化 技术 可 以 对 样本 空间 的 不 同 部 分 产生 不 同 的 划分 ， 可 以 预料 它们 在 产生 
准确 的 分 类 树 方 面 优 于 全 局 方法 。 然 而 ， 也 可 以 预料 它们 为 提高 准确 性 付出 的 速度 代价 是 不 
可 忽略 的 ， 因 为 离散 化 过 程 将 在 树 构造 时 重复 多 次 。 

在 本 章 中 ， 我 们 介绍 在 一 些 流行 的 数据 挖掘 算法 中 使 用 的 方法 。 


9.3.71 ALE 


将 连续 特征 值 离散 化 成 少量 区 间 是 特征 离散 化 过 程 的 任务 ， 其 中 每 个 区 间 被 映射 为 离散 
符号 。 在 这 种 情况 下 ， 使 用 关于 特征 的 先 验 知 识 。 例 如 ， 个 人 薪水 是 连续 值 ， 在 1000 和 10 
万 户 比 之 间 ， 在 数据 挖掘 过 程 开 始 时 ， 可 以 将 其 分 类 为 : 很 低 、 低 、 中 等 、 高 和 很 高 。 这 
E, 截断 点 是 很 主观 地 确定 的 (参见 图 5-1)。 


截断 点 





薪水 1000 10000 20 000 40 000 1 lakh 10 lakh 
图 5-1 薪水 变量 的 离散 化 


这 个 归 约 过 程 的 两 个 主要 问题 是 : 

1 ) 什 么 是 截断 点 ? 

2) 如 何 选择 区 间 的 表示 ? 

如 有 果 没 有 关于 特征 的 知识 ， 离 散 化 会 困难 得 多 ， e = 
前 ， 对 于 实际 的 数据 挖掘 应 用 ， 特 征 值 的 规约 是 无 害 的 ， 并 且 会 使 计算 复杂 性 降低 。 
在 下 面 两 节 我 们 将 介绍 一 些 自动 的 离散 化 技术 。 


0.3.2 FH 
分 箱 用 于 每 个 特征 (属性 ) 。 它 不 使 用 类 信息 。 假 定 我 们 有 属性 “年 龄 "的 如 下 值 集合 ; 0， 
4，12，16，16，18,，24，26，28。 有 两 种 应 用 于 分 箱 的 可 能 方式 : 等 宽 分 箱 和 等 频 分 箱 。 


等 宽 分 箱 : 让 我 们 考虑 箱 宽度 为 10 的 情况 。 箱 元 素 和 箱 边界 如 表 5-1 所 示 。 
等 频 分 箱 : 我 们 考虑 箱 密度 为 3 的 情况 。 现 在 ， 箱 元 素 和 箱 边 界 显 示 在 表 5-2 中 。 
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5-1 SRR : 表 5-2 等 频 分 箱 


10, 4} bd 10, 4, 12} 


{12, 16, 16, 18} - 116,-16, 18} 
124 .26 .28 | 124 26, 28} 





现在 ， 可 以 用 箱 均值 、 箱 中 值 或 箱 边界 置换 箱 中 的 每 个 值 来 离散 化 值 集 合 。 
5.3.3 FRO Rae 


ETAD AERA PMA. (UREA A) EP Rip SRI. Fie 
TIEN — TAF, PRAT EEFE ( entropy-based binning), HW, HK 
方法 找 出 最 佳 划 分 ， 使 得 箱 尽 可 能 纯 ， 即 箱 中 的 大 多 数值 对 应 于 具有 相同 类 标号 的 实例 。 形 
式 地 说 ， 它 通过 找 出 最 大 化 信息 增益 的 划分 来 进行 离散 化 。 

假设 我 们 有 如 下 (属性 值 / 类 ) 对 。 设 $ 是 表 5-3 给 定 的 9 个 对 。 注 意 ， 在 离散 化 之 前 ， 
数据 已 经 排序 。 | 

A =4/9 ARES TF P 的 对 所 占 的 比例 ， 而 n=5/9 表 5-3 待 离散 化 的 数据 
为 类 值 等 于 N 的 对 所 占 的 比例 。5 的 炉 ( 信 息 内 容 ) 由 下 预测 变量 目标 变量 Y 
式 得 到 : 

Entropy(S) = —plog(p) —nlog(n) 

WX =v 是 一 个 可 能 的 划分 ,将 S 划分 成 两 个 子 集 S, 

S,, HPS, 是 值 X<v 的 集合 ，5, eX oo Wea. 

该 划分 的 信息 为 

Info (S,, S.) =(|S,|/|S|)Entropy (S,) +\( |S, |7 
|S |) Entropy (S, ) 

该 划分 的 信息 增益 为 ， 

Gain(v, S) = Entropy (GS) GEVEN Sa) 

其 中 |$ | 表示 集合 S 的 基数 (数据 点 的 个 数 ) 。 
例如 ， 如 果 我 们 想 在 属性 值 X=14 上 划分 ， 则 
S =1t0, Py, 《4 

Info (S,, S,) =(3/9)Entropy(S,) + (6/9) Entropy(S,) =0 + (6/9)0. 9163 =0. 1308 

Gain(14, S) =Entropy(S) —0. 1308 

该 算法 的 目标 是 找到 具有 最 大 信息 增益 的 划分 。 当 Info(Si,，$: ) 最 小 时 ， 信 息 增 益 最 
大 。 通 过 考察 所 有 的 划分 ， 选 择 最 优 划 分 得 到 最 佳 划 分 。 

在 实践 中 ,不 必 考 虑 所 有 可 能 的 割 点 。Fayyad 和 Irani[ 4 |] 证 明 使 炉 最 小 化 的 最 佳 制 点 一 = 
定 在 不 同 的 类 实例 之 间 。 对 于 我 们 考察 的 数据 ; 在 割 点 :14、17 和 21 TT Ee 5-4 给 
Ho hTERT RA 14( 属 性 值 12 和 16 之 间 ) 出 现 ， 因 此 它 被 取 做 最 佳 割 点 。 


5-4 


Y 





P 
P 
N 
N 
P 
N 
N 
N 


属性 值 上 


类 标号 


ibe Cos E de e FNA 

| Pagers Pst Lot 
feta Info([3, 0], Info( [3, E Info( [4, 2], 

oe [5:91 ]) £00433 [1, 3]) =09 | [0, 3]) =0.6121 
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5.3.4 找 出 分 割 点 的 其 他 简单 方法 


在 本 节 中 ， 我 们 介绍 两 种 确定 分 割 点 的 简单 方法 [5]， 它 们 的 时 间 和 空间 复杂 性 随 着 相 
关 记 录 的 个 数 呈 线性 增长 。 所 有 三 种 方法 都 使 用 相同 的 离散 化 方法 ， 称 为 分 位 数 方法 ( quan- 
tile approach) 。 使 用 该 方法 ， 我们 对 决策 树 的 每 个 节点 上 的 分 割 点 值 假定 一 个 分 布 ， 并 选择 
分 割 点 ， 使 得 该 分 布 被 划分 成 两 个 等 概率 区 间 。 

高 斯 近似 : 第 一 种 方法 称 为 高 斯 近似 ( Gaussian approximation) 方法， 只 需要 知道 与 树 中 . 
每 个 叶 节 点 虐 相 关联 的 数据 记录 的 每 个 需要 划分 的 连续 预测 子 的 均值 和 标准 差 。 这 些 统计 量 
容易 在 数据 向 下 传递 到 新 形成 的 划分 的 子女 时 收集 到 。 对 于 向 下 传递 到 叶 节 点 工 的 每 个 记 
录 ， 更 新 上 中 每 个 连续 预测 子 的 累计 和 、 BETA 当 所 有 的 数据 到 达 世 时 ， 从 这 些 和 导 
出 均值 和 标准 差 。 

我 们 按 以 下 方法 得 到 叶 节 点 上 每 个 连续 预测 子 子 ; 的 划分 点 。 首 先 ， 我 们 选取 被 考虑 
的 划分 点 数目 &。 这 种 选择 可 以 动态 地 进行 ( 即 通过 模型 选择 进行 ) ， 或 者 在 学 习 算 法 运行 
前 ， 对 所 有 节点 的 所 有 预测 子 预先 定义 5。 第 二 ， 我 们 假设 (通常 不 太 好 )Z 在 与 5 相关 的 实 
例 上 正 态 分 布 ， 选 择 这 样 的 划分 点 ， 它 们 产生 ;的 值 域 的 上 +1 个 等 密度 区 域 。 特 殊 地 ， 设 
laser 8, | AkRTPRID RIERA, RMF c: 


te: =p, +01, P | 


其 中 ，B -! 是 标准 高 斯 累积 分 布 函数 的 逆 , u 和 ex 分 别 是 与 相关 的 的 值 的 均值 和 
标准 差 。 

k- 分 位 数 方法 : 在 第 二 种 计算 划分 点 的 方法 中 ,我们 使 用 大分 位 数 选择 连续 划分 点 。 这 

应 于 使 用 经 验 分 布 函数 的 分 位 数 方法 。 也 就 是 说 ， 对 于 连续 预测 子 已 ， 我 们 选择 划分 点 ， 


Wi <C, m, = nia see X, > Cio MW, WEET, 


UZTERA S LARP X 的 中 值 。 与 前 面 的 方法 一 样 ， 我 们 可 以 对 所 有 的 节点 
和 所 有 的 预测 子 预先 计算 ko 

ChiMerge 

ChiMerge[6] 是 一 种 自动 离散 算法 ， 它 使 用 * 统计 量 分 析 给 定 特征 的 多 个 区 间 的 质量 。 
该 算法 根据 样本 的 输出 分 类 确定 两 个 相 邻 区 间 中 数据 分 布 的 相似 性 。 如 果 宛 检验 的 结论 是 
类 输出 独立 于 特征 区 间 ， 则 区 间 应 当 合并 ; 否则 ， 它 表明 区 间 之 间 的 差别 是 统计 显著 的 ， 因 
此 不 进行 合并 。 

对 于 离散 化 ，ChiMerge 算法 包括 三 个 基本 步 又: 

1) 给 定 特征 的 数据 按 递增 次 序 排 序 。 

2 ) 确定 初始 区 间 ， 使 得 每 个 特征 值 在 一 个 单独 的 区 间 中 。 

3) 重 复合 并 相 邻 的 区 间 ， 直 到 没有 两 个 相 邻 区 间 的 x 值 小 于 阔 值 。 

每 次 合并 之 后 ， 计 算 剩余 区 间 的 x 值 ， 并 找 出 具有 最 小 x 值 的 两 个 相 邻 特征 。 如 果 该 
x 值 小 于 阔 值 ， 则 合并 这 些 区 间 。 如 果 不 能 合并 ， 并 且 区 间 数 大 于 用 户 定义 的 最 大 值 ， 则 
增加 该 阀 值 。 

x 检验 或 相依 表 检 验 用 于 确定 两 个 相 邻 区 间 的 独立 性 。 当 数据 汇总 在 相依 表 中 时 ( 它 的 
形式 见 表 5-5) , x 检验 由 下 式 给 出 : 











i 
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其 中 , 是 类 数 ， 太 是 第 i 个 区 间 中 第 j 个 类 的 实例 数 。E; 是 4 的 期 望 频率 ;用 (R; . C)ZN 计 
算 。K, 是 第 i 个 区 间 中 的 实例 数 D A, C 是 第 j 个 类 的 实例 数 A, TN EER Y, R, 。 


表 5-5 2 x2 分 类 数据 的 相依 表 


类 1 类 2 x 
区 间 2 ‘Ay AS, R, 
be C, C, N 


i il A EA ee E Gee D RA 

MRAR R, 或 C 为 0， 则 设置 E AME, WE, =0. 1, 进行 这 一 修正 的 理由 是 
避免 检验 的 分 母 出 现 非常 小 的 值 。 对 于 给 定 的 数据 集 , y 检验 的 自由 度 是 小 于 类 个 数 的 数 。 当 
离 敬 化 的 特征 多 于 一 个 时 ， 应 当 分 别 指定 每 个 特征 的 区 间 最 大 个 数 阐 值 和 六 检验 置信 区 间 。 
如 采 区 间 个 数 超过 该 最 大 值 ，ChiMerge 算法 可 能 以 一 个 新 的 、 约 减 的 置信 值 继续 进行 。 

对 于 两 个 类 的 分 类 问题 (X=2) ， 分 析 两 个 区 间 的 合并 ，2 x2 数据 的 相依 表 具 有 表 5-5 的 
形式 。4 表 示 第 一 个 区 间 中 属于 第 一 个 类 的 样本 数 ，4,, 是 第 一 个 区 间 中 属于 第 二 个 类 的 样本 
数 ，4,, 是 第 二 个 区 间 中 属于 第 一 个 类 的 样本 数 ，4,, 是 第 二 个 区 间 中 属于 第 二 个 类 的 样本 数 。 

我 们 将 使 用 一 个 相对 简单 的 例子 分 析 ChiMerge 算法 ， 其 中 数据 库 包含 12 个 二 维 样本 ， 
只 有 一 个 连续 特征 (了) 和 一 个 分 类 输出 特征 (K) 。 特 征 天 的 两 个 值 1 和 2 表示 样本 所 属 的 两 
个 类 。 初始 数据 集 如 表 5-6 所 示 ， 已 经 按照 连续 数 之 特征 进行 了 排序 。 


表 5-6 在 连续 特征 F 上 排序 具有 对 应 类 K 的 数据 


样本 r K 样本 F K 
1 1 1 7 23 2 
2 3 2 8 37 1 
3 7 1 9 39 2 
4 8 1 10 45 1 
5 9 1 11 46 L 
6 11 2 1 
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PSPS BLA, X F OAR RRC Eh y 值 。 我 们 定义 给 定数 据 的 中 
间 值 为 划分 区 间 点 。 例 如 ， 对 于 我 们 的 例子 ,特征 的 区 间 点 为 0, 2, 5, 7.5, 8.5, 10 
二。 根据 区 间 的 这 种 分 布 ， 我 们 分 析 所 有 相 邻 区 间 ， 试 图 找 出 x 检验 值 最 小 的 相 邻 区 间 。 
在 我 们 的 例子 中 , x 检验 值 最 小 的 相 邻 区 间 为 [7.5，8.5] 和 [8.5， 10]。 两 个 区 间 都 只 包含 
一 个 样本 ， 并 且 它们 都 属于 类 大 = 1。 初 始 相依 表 如 表 5-7 所 示 。 


表 5-7 区 间 [7.5，8.5] 和 [8.5，10] 的 相依 表 





ed k=2 >H 
KR 7. S, 8.5] A,, =1 A,, =0 i aga 
区 间 [ 8.5， 10 | A, =] Ay =0 R, =1 

Gi =2 C =0 N=2 


> 1 2 PE 
一 
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根据 表 5-7 给 定 的 值 ， 我 们 可 以 计算 期 望 值 : 


š Ei =2/2 =1 
e En =0/2~0. 1 SABA 0, EE PR) 
eE,, =2/2=1 


oF, =0X2=0.1( 期 望 值 为 0， 通 常 选择 一 个 较 小 的 量 ) ,而 对 应 的 是 : 

Cie = (1 -1)°/1 + (0-0. 1)7/0. 1 4 (1 -1)?/1-+ (0-0: 1)?/0. 1 =0.2 

Nive =2. 706( 对 于 自由 度 d=1, a=0.1, BY KI RIA) 

由 于 vite <Naecem > DONT FETZER, TBE PEAY Cae A BSE PE, MUAA E 
每 次 迭代 中 ， 只 对 具有 最 小 x E, FEY AOD FRAME AR. OE 
两 个 具有 最 小 x 值 的 相 邻 区 间 继 续 该 迭代 过 程 。 我 们 只 给 出 合并 过 程 中 间 的 某 处 的 一 个 附 
加 步骤 ， 其 中 分 析 了 区 间 [0，7.5] 和 [7.5，10]。 相 依 表 在 表 5-8a 给 出 ， 而 期 望 值 为 : 

è E, =12/5 =2.4 

ek, =3/5 =0.6 

e E =8/5 =1.6 

°F, =2/5 =0.4 
itt x” EA 5 

Memes 62 2. 4) 72.4 +01 0, 6) 70. ey aa 6)" 71.6.4 (0-0. 4)7AD. i 0. 834 


#5-8a) 区间 [0, 7.5] 和 [7.5, 10] 的 相依 表 


k=1 k=2 y 
区 间 [0, 7:5] 7 2 Ay aed R, =3 
KETAS, 10] A, =2 A, =0 Roa? 
> C, =4 C, =1 “N=5 


选 定 的 区 间 应 当 合 并 成 一 个 区 间 ， 因 为 在 自由 度 d =1, Yop =0. 836 <2. 706(a =0.1， 
qd=1l 的 闽 值 ) 。 在 我 们 的 例子 中 ， 关 于 MAEM, SHR RARER AST KAN 
散 化 : [0，10]，[10，42] 和 [42，60]j， 其 中 假定 60 是 特征 的 最 大 值 。 a 
区 间 赋 予 码 值 1、2 和 3 或 描述 性 语言 值 “ 低 ”、“ 中 ”和 “高 "。 

不 可 能 出 现 附 加 的 合并 ， 因为 x 检验 将 显示 区 间 之 间 的 显著 不 同 。 例 如 ， 如 果 我 们 试 
图 合并 区 间 [0，10] 和 [10，42 ] ， 相 依 表 将 如 表 5- 8b 所 示 。 期 望 频率 将 变 成 Ei, = 25/9， 
Ey, =20/9, Ey =20/9, En =16/9, Xtiwm =5.271 >Xsam =2.706。 结 论 是 ， 两 个 区 间 之 间 
存在 显著 差别 ， 不 建议 合并 。 | | | 

#5-8b) ， 区 间 [0,，10] 和 [10,，42 ] 的 相依 表 


k=1 k =2 E 
KEO, 10.0] An =4 Ay =1 R, =5 
区 间 [ 10.0, 42.0] A,, =1 A,» =3 R, =4 
3 C =5 C, =4 N=9 


5.4 特征 提取 、 选 择 和 构造 


特征 提取 、 选 择 和 构造 是 预 处 理 任 务 ， 并 且 独 立 于 数据 挖掘 。 这 样 做 有 多 个 理由 。 第 
一 ， 它 可 以 进行 一 次 ， 并且 可 以 在 其 后 所 有 的 数据 挖掘 任务 中 使 用 。 第 二 ， 它 使 用 的 评估 度 
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量 的 计算 开销 通常 比 数据 挖掘 算法 小 ， 因 此 它 能 够 处 理 的 数据 量 比 数据 控 掘 大: 第 三 ， 它 是 
离线 工作 的 。 因 此 ， 如 果 必 要 的 话 ， 可 以 尝试 许多 不 同 的 算法 。 特 征 提取 、 选 择 和 构造 可 以 
看 作 三 个 独立 的 问题 ， 每 一 个 问题 都 相当 有 难度 。 然 而 ， 除 了 是 主要 的 预 处 理 任 务 之 外 ， 它 
们 还 有 一 些 其 他 共性 : 中 如 前 所 述 ， 它 们 都 试图 实现 相同 的 数据 归 约 目标 ，@ 它 们 都 需要 革 
种 标准 ， 确 保 结果 数据 使 得 挖掘 算法 效率 更 高 , @ 它 们 的 有 效 性 需要 从 多 方面 度量 ， 如 数据 
的 压缩 量 、 压 缩 数 据 的 相关 性 ， 以 及 (如 果 可 能 的 话 ) 它们 对 数据 挖掘 算法 的 直接 影响 。 

特征 提取 、 选 择 和 构造 可 以 组 合 使 用 。 在 许多 情况 下 ， 特 征 构造 用 新 构造 的 、 更 具 表达 
性 的 特征 增加 特征 的 数量 ， 但 这 样 可 能 包括 元 余 特 征 。 特 征 选 择 可 以 自动 地 帮助 归 约 这 些 多 
余 的 特征 。 可 能 的 组 合 有 ;, 特征 选择 后 随 特征 提取 ， 特 征 构 造 后 随 特 征 选择 。 到 底 如 何 使 用 
取决 于 应 用 的 多 个 因素 ， 如 数据 挖掘 的 期 望 结 果 、 所 用 的 数据 挖掘 算法 等 。 

在 下 面 的 内 容 中 ， 我 们 将 分 别 介绍 特征 提取 、 选 择 和 构造 。 对 于 每 个 问题 ， 第 一 ， 我 们 
介绍 基本 概念 ; 第 二 ， 讨 论 一 些 代表 性 算法 ; 第 三 ， 使 用 一 个 简单 的 数据 集 展示 每 种 方法 的 
短信 和 输出 ， 解 释 算法 并 进行 总 结 。 接 下 来 ， 我 们 给 出 一 些 使 用 特征 提取 、 选 择 和 构造 的 应 
用 。 最 后 ， 我 们 用 一 些 可 能 的 进一步 研究 结束 本 章 的 介绍 。 


5.4.1 特征 提取 


特征 提取 是 一 个 过 程 ， 它 通过 某 种 函数 映射 从 原 有 的 特征 提取 一 个 新 的 特征 集 ( Wyse， 
Dubes 和 Jain, 1980), BREA 个 特征 (或 属性 )4, ，4; ，…，4, ， 特 征 提取 后 我 们 有 新 特 
(ES: B,, Bz, ++, B,(m<n), B,=F(A,, A,, --, A,), i F, BPR, Ole, —*pe 
WTA ez: B,=c,A, +06,4, HP c Me, 是 系数 。 为 了 找到 好 的 变换 ， 通 常 需要 计算 密集 的 
搜索 。 特 征 提取 的 目标 是 通过 某 种 变换 ， 根 据 某 种 性 能 度量 找到 一 个 最 小 的 新 特征 集 。 因 
此 ， 主 要 的 研究 问题 概述 如 下 。 

性 能 度量 研究 什么 是 评估 提取 的 特征 的 最 合适 的 度量 。 性 能 评估 的 关键 是 确保 变换 后 提 
取 的 特征 保持 原 数据 的 某 些 特点 。 因 此 ; 应 当选 择 什么 度量 在 某 种 程度 上 取决 于 需要 进行 特 
征 提取 的 应 用 。 通常 的 数据 挖掘 任务 ， 如 聚 类 或 分 类 可 能 对 确定 性 能 度量 具有 很 不 相同 的 约 
束 。 对 于 分 类 ， 数 据 具有 类 标号 ， 训 练 集 上 的 预测 准确 率 可 以 作为 一 种 性 能 度量 。 对 于 聚 
类 ， 数 据 没 有 类 标号 ， 必 须 借助 于 其 他 度量 ， 如 簇 内 / 簇 间 相 似 性 、 数 据 的 方差 等 。 

变换 研究 将 原 特 征 映射 到 新 特征 的 方法 。 变 换 的 主要 目的 是 找到 一 种 方法 ， 以 更 简洁 的 
形式 表示 原来 的 数据 。 在 数据 挖掘 背景 下 ， 变 换 可 以 定义 为 找 出 比 原 特 征 更 少 的 新 特征 ,或 
者 找 出 某 些 更 容易 实现 可 视 化 和 操纵 的 新 特征 。 不 同 的 映射 可 以 用 于 特征 提取 。 一 般 地 ， 映 
射 可 以 分 为 线性 变换 和 非 线 性 变换 。 某 些 变 换 只 能 用 于 某 种 类 型 的 数据 。 通 常 遇 到 的 情况 是 
数据 是 否 被 标记 。 这 样 ， 可 以 从 两 个 角度 对 变换 分 类 : 线性 有 标号 的 、 线 性 无 标号 的 、 非 线 
性 有 标号 的 和 非 线 性 无 标号 的 。 许 多 数据 挖掘 技术 都 可 以 用 于 变换 。 例 如 ，EM( 期 望 最 大 
化 )、k- 均 值 和 k- 中 心 点 可 以 用 于 无 标号 数据 ， 多 层 感知 器 可 以 用 于 有 标号 的 非 线性 数据 。- 

新 特征 数 考 察 确定 最 小 新 特征 数 的 方法 。 这 看 起 来 是 一 个 容易 解决 的 问题 。 就 像 数 据 可 
视 化 ， 最 直观 的 解决 方法 是 绘制 数据 的 三 维 模型 。 然 而 ， 当 数据 的 原始 维度 很 高 时 (超过 20 
维 )， 不 大 可 能 具有 数据 的 三 维 模型 的 全 面 视图 。 我 们 的 目标 是 创建 最 小 的 新 特征 集 ， 这 里 
的 实际 问题 是 有 和 多少 新 特征 可 以 确保 变换 后 的 数据 保持 “真正 的 本 质 "。 解 决 该 问题 的 一 些 
常见 方法 是 : @ 根 据 以 往 的 经 验 ， 在 某 些 变 量 上 主观 地 确定 一 个 阐 值 ， 用 于 性 能 度量 ， 从 而 
确定 新 特征 的 个 数 。@ 根 据 某 种 客观 度量 ( 如 预测 准确 率 ) 自动 地 确定 特征 数 。 

可 以 利用 数据 特征 作为 选择 性 能 度量 、 新 特征 数 和 变换 的 标准 。 除 类 标号 之 外 ， 数 据 特 
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征 可 以 具有 多 种 类 型 : 连续 的 、 标 称 的 、 二 元 的 、 混 合 的 。 特 征 提取 可 能 具有 多 种 用 途 : 用 
于 进一步 处 理 的 维度 归 约 (Liu 和 Motoda，1998[7])， 可 视 化 (Fayyad，Grinstein 和 Wierse， 
2001[8])， 用 于 提升 某 些 数据 挖掘 算法 的 复合 特征 (Liu 和 Setiono，1997[9] ) 。 然 而 ， 特 征 
提取 确实 需要 某 些 开销 。 最 明显 的 开销 如 下 : 
1 ) 搜 索 满 足 性 能 标准 的 新 特征 是 非常 耗 时 的 。 这 种 缺点 通常 可 以 忍受 ， 因 为 特征 提取 
只 是 定期 执行 以 得 到 映射 。 数据 挖 掘 最 频繁 执行 的 是 对 数据 使 用 映射 ， 然 后 使 用 新 特征 发 现 
有 价值 的 模式 。 
2) 必须 保留 原来 的 特征 。 换 句 话说 ， 特 征 提 取 并 不 减少 数据 源 的 特征 数 。 如 果 数 据 收 
集 的 开销 很 大 ， 那 么 这 种 特性 是 不 应 当 的 。 在 5.5 节 ， 我 们 将 讨论 可 以 降低 原 数据 的 维度 的 
特征 选择 方法 。 | 
特征 映射 算法 : 函数 映射 可 以 用 多 种 方法 实现 。 在 这 里 ， 我 们 提供 两 个 样 例 算 法 ， 解 释 
它们 如 何 处 理 特征 提取 。 一 个 带 有 一 些 数 据 的 简单 例子 如 表 5-9 所 示 。 
© 前 馈 神经 网 络 。 前 馈 神经 网 络 可 以 用 来 提取 新 特征 (Setiono 和 Liu，1997) 。 特 别 地 ， 
具有 一 个 隐藏 层 的 多 层 感 知 器 被 用 于 特征 提取 。 其 基本 思想 是 使 用 隐藏 单元 作为 新 提 
取 的 特征 。 让 我 们 考察 它 如 何 处 理 特征 提取 的 三 个 主要 问题 。 第 一 个 问题 是 如 何 评估 
新 特征 的 性 能 。 估 计 预 测 准 确 率 ， 并 用 它 作 为 性 能 度量 。 这 要 求 应 该 标记 数据 所 属 的 
类 。 我 们 选择 会 使 预测 准确 率 达 到 最 佳 的 提取 特征 。 第 二 个 问题 是 将 原 特征 映射 到 新 
特征 。 在 这 种 情况 下 ， 它 是 从 输入 单元 到 隐藏 单元 的 非 线 性 映射 。 第 三 个 问题 是 如 何 
确定 新 特征 的 个 数 。 显 然 ， 后 两 个 问题 与 神经 网 络 的 拓扑 结构 密切 相关 。 设 计 了 两 个 
算法 用 于 构造 具有 最 少 隐藏 单元 ( 即 最 少 特 征 数 )， 并 且 输 入 层 和 隐藏 层 之 间 具 有 最 
少 连接 的 网 络 : 网 络 构 造 算法 极度 节俭 地 添加 一 个 隐藏 单元 ， 以 提高 预测 准确 率 ; 如 
果 不 影 响 预测 准确 率 ， 网 络 前 枝 算法 慷慨 地 前 去 输入 层 和 隐藏 层 之 间 的 见 余 连 接 。 
© 主 成 分 分 析 (PCA)。 这 是 一 种 经 典 技 术 ， 其 中 个 原 特 征 被 m 个 新 特征 取代 ， 这 些 
新 特征 是 原 特征 的 线性 组 合 。 我 们 来 看 一 下 如 何 使 用 PCA 确定 性 能 度量 、 变 换 和 新 
特征 数 。 其 基本 思想 是 很 简单 的 : 通过 这 样 一 些 线 性 组 合 形成 m 维 (1 < m <n-1) 
投影 ， 这 些 线性 组 合 最 大 化 样本 方差 ， 与 已 经 选取 的 所 有 线性 组 合 不 相关 。 这 里 的 目 
标 是 通过 从 原 特 征 到 新 提取 的 特征 的 线性 映射 捕获 数据 中 的 固有 变异 性 。 特 殊 地 ， 性 
能 度量 是 样本 方差 ;新 特征 数 m 由 m 个 主 成 分 确定 ， 这 些 主 成 分 捕获 的 方差 满足 预 
Fee BU; 变换 是 线性 组 合 。PCA 并 不 要 求 数 据 具 有 类 标号 。m 个 主 成 分 的 搜 
索 可 以 转换 为 找 出 数据 的 协 方差 矩阵 的 与 m 个 最 大 本 征 值 相关 联 的 m 个 本 征 疝 量 
(Hand, Mannila, Smyth 和 Uthurusamy，2001[10])。 现 在 ， 我 们 使 用 频繁 引用 的 敬 
尾 花 数据 集 来 解释 PCA。 关 于 葡 尾 花 数据 集 的 更 多 细节 在 第 6 章 给 出 。 
例子 : WE EERE E 150 x4 的 矩阵 ， 其 中 有 150 行 (或 实例 ) 和 4 个 连续 特征 。 它 的 协 
方差 矩阵 是 4 x4 矩阵 (如 表 5-9 中 所 示 ) ， 其 中 每 个 特征 值 都 已 经 规范 化 到 [0,，1 ] 区 间 。4 
个 本 征 值 按 降序 排列 显示 在 表 5-9 中 。 我 们 在 所 有 n 个 本 征 值 上 计算 m 个 最 大 本 征 值 的 比 
例 。 前 两 个 的 和 是 0.95801。 也 就 是 说 ，95% 的 方差 被 前 两 个 主 成 分 捕获 。 可 以 使 用 两 个 对 
应 的 本 征 向 量 将 原来 的 4 维 数据 变换 为 两 个 特征 上 的 新 数据 : 令 M 是 4x2 矩阵， 它 由 两 个 
本 征 向 量 组 成 ; D ERE TEBE; 新 数据 D' = DM 是 二 维 数据 。 更 多 细节 以 及 该 方法 与 其 
他 方法 的 比较 可 以 在 [7] 中 找到 。 
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R5-9 BERF: 协 方 差 矩 阵 、 有 序 的 本 征 值 和 它们 的 比例 





协 方 差 矩 阵 比 例 

l —0. 1094 0. 8718 0. 818 0. 7277 

一 0. 1094 l -0. 4205 -0. 3565 0. 2303 
0. 8718 -0. 4205 1 0. 9628 0. 0368 
0. 818 = 0. 3565 0. 9628 1 0. 0052 


5.4.2 特征 选择 


特征 选择 不 同 于 特征 提取 ， 它 不 产生 新 特征 。 它 是 一 个 过 程 ， 用 于 从 有 NN 个 特征 的 原 
集合 中 选择 M(M < NN) 个 特征 的 子 集 ， 使 得 按照 某 种 标准 ， 特 征 空间 的 降 维 是 最 优 的 ( Blum 
和 Langley，1997[ 11] ) 。 特 征 选 择 在 机 器 学 习 中 的 作用 是 四 降低 特征 空间 的 维度 ， 四 加 快 学 
习 算 法 的 执行 速度 ，@@ 提 高 分 类 算法 的 预测 准确 率 ， 团 提高 学 习 结 果 的 可 理解 性 。 


5.4.3 特征 构造 


特征 构造 是 一 个 过 程 ， 它 通过 推断 或 创建 附加 的 特征 来 发 现 特征 之 间 联 系 的 缺失 信息 和 
扩展 特征 空间 (Liu 和 Motoda，1998)。 假设 有 个 原 特 征 4 ， A,, =, 4 ， 进 行 特征 构造 
后 ， 我 们 可 能 有 m 个 附加 的 特征 Ansis Anss o Animo WAN, IFEA, Cn cken + m) 可 
以 通过 在 原 特征 集 的 4 和 4; 上 执行 逻辑 操作 得 到 。 再 看 另 一 个 例子 。 一 个 二 维 问题 (例如 ， 
A, ARIZ, A, HKEE) 可 以 通过 构造 面积 维 B, 转换 为 一 个 一 维 问题 (8B, 为 面积 ) 。 所 有 新 构 
造 的 特征 都 用 原来 的 特征 定义 。 这 样 ， 本 质 上 并 没有 通过 特征 构造 增加 新 信息 。 特 征 构造 试 
图 提高 原来 特征 的 表达 能 力 。 通 常 ， 新 特征 集 的 维度 扩大 了 ， 比 原 特 征集 的 维度 高 。 结 果 ， 
它 不 可 能 直接 减少 特征 数 。 然 而 ， 构 造 新 特征 之 后 ， 许 多 特征 都 成 为 多 余 的 。 直 观 地 ， 为 了 
爸 造 新 特征 ， 可 能 需要 搜索 指数 多 个 原 特征 的 组 合 ， 并 且 并 非 所 有 的 组 合 都 是 需要 的 和 有 用 
的 。 人 工 构造 特征 是 很 困难 的 。 

特征 构造 的 目标 是 自动 地 将 原来 的 表示 空间 变换 为 可 以 更 好 地 实现 数据 挖掘 目 标的 新 空 
间 : 提高 准确 率 、 容 易 理 解 、 真 实 的 篮 、 揭 示 隐 藏 的 模式 ， 等 等 。 特 征 构造 的 主要 研究 问题 
如 下 : 

1) 如 何 构造 新 特征 ? 

2) 如 何 为 特征 构造 选择 和 设计 算 子 ? 

3) 如何 使 用 算 子 有 效 地 构造 新 特征 ? 

4) 如 何 度量 和 选择 有 用 的 新 特征 ? 


5.5 缺失 数据 及 其 处 理 方 法 和 技术 


在 分 析 数 据 时 ， 常 常会 发 现 每 个 实例 的 数据 并 非 总 是 完整 的 ， 会 缺失 一 些 数据 。 在 某 些 
人 情 次 下 ， 缺 失 的 数据 量 可 能 很 小 ， 而 在 另 一 些 情况 下 ， 缺 失 的 数据 可 能 很 多 。 本 节 我 们 将 处 
理 有 关 缺 失 数据 的 如 下 问题 : 

。 什 么 是 缺失 数据 ? 

。 为 什么 缺失 数据 是 重要 的 ? 

。 缺 失 数据 的 主要 原因 是 什么 ? 

o 缺失 数据 或 缺失 机 制 有 哪些 类 型 ? 
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© 缺失 数据 怎么 办 ? 
© 通用 软件 包 如 何 处 理 缺失 数据 ? 


5.5.1 什么 是 缺失 数据 ， 
缺失 数据 是 其 后 分 析 需 要 收集 但 并 未 进入 数据 库 的 数据 。 
9.5.2 缺失 数据 的 主要 原因 


缺失 数据 的 原因 有 很 多 。 本 节 将 列举 一 些 常见 的 原因 ， 它 们 的 处 理 方法 会 在 下 一 节 给 
出 。 缺 失 数据 的 一 种 常见 形式 是 受 访 者 拒绝 回答 某 一 问题 。 通 常 因为 问题 太 敏感 。 人 敏感 问题 
的 例子 包括 关于 健康 、 收 入 和 非法 活动 的 问题 。 另 一 种 常见 的 原因 是 回答 者 根本 不 知道 答 
案 。 这 可 能 是 记忆 问题 (例如 ， 记 不 住 上 次 身体 检查 的 日 期 ) ， 或 者 是 理解 问题 (不 理解 问题 
中 杀 个 词 或 结构 )。 有 了 时， 只 是 没有 可 用 的 期 望 数据 。 例 如 ， 调 查 表 中 关于 上 次 肌肉 痉挛 中 
今 多 长 时 间 的 问题 会 使 从 未 发 生 肌 肉 疼 这 的 人 对 此 问题 没有 任何 反应 询问 健康 维护 组 织 
(HMO) 会 员 ， 评 估 他 们 过 去 12 个 月 参加 活动 的 情况 ， 对 于 该 时 间 段 没有 利用 HMO 设施 的 
人 将 不 会 给 出 可 用 的 回答 

如 果 使 用 计算 机 辅助 面试 则 缺失 数据 可 能 是 因为 问卷 程序 错误 造成 的 。 例 如 ， 对 于 前 
面 的 问题 ， 不 应 该 首先 向 过 去 一 年 不 在 HMO 的 应 试 者 问 这 些 问题 。 数据 处 理 错误 也 可 能 造 
成 缺失 数据 。 数 据 可 能 没有 输入 或 未 正确 输入 。 缺失 数据 在 研究 领域 也 是 常见 的 ， 那 里 的 数 
据 是 在 过 去 逐渐 收集 的 。 例 如 ， 在 测量 促进 健康 减肥 的 计划 中 ， 可 能 在 计划 开始 和 结束 以 及 
其 后 的 6 和 12 个 月 收集 关于 知识 、 态 度 、 饮 食 习 惯 和 体重 的 数据 。 在 每 个 数据 收集 点 ， 人 
员 会 随时 间 减 少 ， 实 验 对 象 可 能 逐渐 减少 。 


5.5.3 缺失 数据 的 机 制 


处 理 缺 失 数 据 方法 的 有 效 性 在 很 大 程度 上 取决 于 缺失 机 制 [12-28 ] 。 例 如 ， 如 果 我 们 知 
道 一 个 值 为 什么 缺失 ， 那 么 就 能 够 利用 这 一 信息 猜测 它 。 如 果 我 们 没有 这 种 信息 。 则 希望 缺 
失 机 制 是 可 忽略 的 (ignorable) ， 这 使 得 我 们 可 以 使 用 假定 它 不 相关 的 方法 。 

统计 学 家 已 经 确定 了 三 类 缺失 数据 。 第 一 种 情况 是 数据 完全 随机 缺失 ( Missing Complete- 
ly At Random，MCAR) 。 这 意味 值 的 缺失 与 它 的 值 或 与 其 他 变量 的 值 不 相关 。 当 数据 是 
MCAR 时 ， 对 于 每 个 记录 ， 变 量 缺 失 的 概率 相同 。 如 果 值 缺失 的 概率 仅 依赖 于 其 他 恋 量 的 
值 ， 则 称 它 是 随机 缺失 ( Missing At Random，MAR) 。 使 用 概率 论 的 术语 ， 如 果 我 们 有 包含 缺 
失 值 的 变量 了 上 和 另 一 个 变量 X， 我 们 说 该 数据 是 MAR， 如 果 Pr( 了 缺失 | 了 X) =Pr(Y 缺失 
(X) 。 如 果 缺 失 性 依赖 于 缺失 的 值 ， 则 称 该 数据 是 非 随机 缺失 (No Missing At Random, 
NMAR) ， 并 且 这 是 许多 统计 数据 缺失 技术 (MDT) 的 一 个 问题 。 例 如 ， 当 我 们 使 用 传感器 收 
集 数据 ， 而 传感器 不 能 检测 超过 特定 阔 值 的 值 时 就 会 出 现 这 种 情况 。 


5.5.4 ”缺失 数据 的 机 制 一 一 一 个 人 工 例子 


为 了 更 好 地 理解 缺失 机 制 ， 考 虑 表 5-10a 所 示 的 数据 。 它 列举 了 一 些 病人 ， 以 及 他 们 的 
年 龄 和 化 验 结果 。“ 病 人 1D” 是 一 个 “官僚 化 ”变量 ， 它 不 用 于 数据 分 析 。“ 年 龄 ”( Age) 是 独 
立 变 量 ， 而 “化 验 结 果 ”(Test Result) 是 依赖 变量 。 
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假定 化 验 费 用 昂贵 。 研 究 者 可 能 决定 随机 地 选择 只 对 某 些 病人 进行 化 验 。 结果 显示 在 表 
5-10b 中 。 


#5-10a) ”病人 数据 #5-10b) ”具有 完全 随机 缺失 数据 (MCAR) 的 病人 数据 


年 龄 ( Age) 





在 分 析 时 ， 他 们 只 考虑 具有 化 验 结果 的 记录 。 注 意 : 
Pr( 化 验 结果 缺失 |Age =23) = Pr( 化 验 结果 缺失 |Age =75) 
并 且 

Pr( 化 验 结果 缺失 | 化 验 结果 ) = Pr( 化 验 结果 缺失 ) 

这 种 机 制 称 为 MCAR( 数 据 完全 随机 缺失 ) 。 ， | | 

现在 ， 我 们 假定 主要 对 老年 人 做 化 验 。 这 样 ， 化 验 结果 缺失 事实 上 取决 于 “年 龄 "变量 。 
特殊 地 ， | | 
Pr( 化 验 结果 缺失 |Age =23) =0.5，Pr( 化 验 结果 缺失 |Age =75) =0.0 

这 种 机 制 称 为 MAR( 数据 随机 缺失 ) 。 表 5-10e 中 的 数据 是 MAR 的 例子 。 

现在 ， 我 们 假定 用 于 化 验 的 设备 不 能 测量 较 高 的 值 。 这 意味 化 验 结果 的 缺失 依赖 于 缺失 
值 。 更 形式 地 ， 

Pr( 化 验 结果 缺失 | 化 验 结果 <2000) =0. 0 

tH 


Pr( 化 验 结果 缺失 | 化 验 结果 >2000) =1. 0 
这 样 ， 化 验 结果 看 上 去 如 表 S$-10d 所 示 。 


表 5-10c) “具有 随机 缺失 数据 (MAR) 的 病人 数据 表 5-10d) ”具有 缺失 数据 的 病人 数据 





注意 ， 没 有 外 部 的 信息 ， 该 数据 统计 上 不 同 于 表 5-10b 中 的 数据 ， 因 为 
Pr( 化 验 结果 缺失 | 年 龄 ) = Pr 化验 结 果 缺 失 ) 
如 果 我 们 不 知道 基本 依赖 ( 通常 如 此 ) ， 可 能 很 难 分 析 该 数据 。 
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5.6 在 决策 树 归 纳 中 处 理 缺 失 数据 的 例子 


算法 C4. 5 假定 所 有 属性 的 所 有 值 都 是 确定 的 。 但 是 在 一 个 数据 集中 ， 某 些 样本 的 某 些 
属性 值 常 常 缺失 一 一 这 种 不 完整 性 在 实际 应 用 中 很 常见 》 出现 这 种 情况 可 能 是 因为 对 于 特定 
的 样本 ， 该 值 无 关 紧要 ; 或 者 在 收集 数据 时 ， 该 值 未 记录 ; 或 者 是 由 于 输入 数据 的 人 的 错误 
所 导致 。 处 理 缺 失 的 值 有 两 种 选择 : 

1) 丢 弃 数 据 库 中 具有 人 缺失 值 的 样本 。 

2) 定义 一 个 新 算法 或 修改 一 个 已 有 算法 来 处 理 缺 失 值 。 

第 一 种 解决 方案 虽然 简单 ， 但 是 当 样 本 集中 存在 大 量 缺 失 值 时 是 不 可 接受 的 。 对 于 第 一 
种 方案 ， 必 须 解决 如 下 一 些 问题 ; 

1) 如 何 比 较 具 有 不 同 数目 缺失 值 的 两 个 样本 ? 

2) 具有 未 知 值 的 训练 样本 不 能 与 具体 的 测试 值 相 关联 ， 因 此 它们 不 能 指派 到 样 例 的 任 
何 子 集 。 在 划分 时 如 何 处 理 这 些 样本 ? 

3) 在 分 类 的 检验 阶段 ， 如 果 检 验 在 具有 缺失 值 的 属性 上 进行 ， 如 何 处 理 缺 失 值 ? 

在 试图 为 缺失 数据 寻找 解决 方案 时 ， 这 些 问题 和 其 他 一 些 问 题 都 会 出 现 。 一 些 可 以 处 理 
缺失 值 的 分 类 算法 通常 用 最 可 能 的 值 填补 缺失 值 ， 或 考虑 给 定 属性 上 所 有 值 的 概率 分 布 。 这 
些 方法 没有 一 种 总 是 最 好 的 。 

在 C4. 5 中 ， 一 个 可 接受 的 原则 是 具有 未 知 值 的 样本 根据 已 知 值 的 相对 频率 进行 分 布 。 
设 Info( T) 和 Info.(7) 按 前 面 的 方法 计算 ， 不 同 的 是 只 考虑 属性 值 已 知 的 样本 。 然 后 ， 用 一 
个 因子 合理 地 调整 增益 参数 。 该 因子 代表 给 定 属性 值 已 知 的 概率 (F = 数据 库 中 给 定 属性 
具有 已 知 值 的 样本 数 /数据 集中 的 样本 总 数 ) 。 新 的 增益 标准 具有 如 下 形式 ; 

Gain(x) =F[Info(T) | -Info (T) 

类 似 地 ， 可 以 修改 Split- info(x)， 在 划分 时 ， 把 具有 未 知 值 的 样本 看 作 一 个 附加 的 组 
和 群 。 如 果 测 试 * 具有 个 输出 ， 则 就 像 该 测试 把 数据 集 划 分 成 n+1 个 子 集 一样 来 计算 它 的 
Split-info(x) 。 这 一 修改 对 修改 后 的 Gain-ratio(x) 的 最 终 值 具有 直接 影响 。 

我 们 用 一 个 例子 解释 对 C4.5 决策 树 方法 的 修改 。 数 据 集 与 前 面 的 数据 集 类 似 ， 唯 一 的 
不 同 是 属性 1 的 缺失 值 用 “2 表示 ， 如 表 S211 所 示 。 

表 5-11 包含 一 个 缺失 值 的 简单 数据 库 


属性 1 属性 2 属性 3 类 
A 70 True Classl 
A 90 True Class2 
A 85 False Class2 
A 95 False Class2 
A 70 False Classl 
? 90 True is Class1 
B 78 False Class] 
B 65 True Class] 
B TS False Class 
C 80 True '  Class2 
C 70 True Class2 
C 80 False Classl 
€ 80 False Class 
C 96 False : Classl 


os 
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属性 1 的 增益 参数 的 计算 与 前 面 类 似 ， 只 征 缺 失 值 修正 了 前 面 的 某 些 步骤。 属性 1 中 的 
13 个 案例 中 的 8 个 属于 类 1，5 NRF 2, URI ATHOE. 

Info( T) = -8/13 log, (8/13) -5/13 log, (5/13) =0. 961 位 

使 用 属性 1 将 了 划分 成 3 an FPN IFS x, 的 3 个 值 4 BKC a), 结果 
信息 由 下 式 给 出 :; 

Info, (T) =5/13( -2/Slog (2/5) —3/Slog, (3/5) ) +3/13( =3/3lbog, (3/3) = oe 
+5/13( —3/5log, (3/5) —2/Slog, (2/5) ) 
sos 747 Av 
该 测试 的 信息 增益 用 因子 有 (在 我 们 的 例子 中 下 = 13/14) jae. 
Gain(x,) =13/14(0. 961 -0.747) =0. 199 位 

该 测试 的 增益 稍微 低 于 先前 的 值 0. 216 位 。 然 而 ， 划分 信息 仍然 由 整个 训练 集 确 定 并 且 
比较 大 ， 因 为 存在 一 个 附加 的 关于 未 知 值 的 类 别 。 

Split-info(x,) = — (5/13) +3/13log(3/13) +5/13log(5/13) + 1/13log(1/13) ) =1. 876 

此 外 ， 划 分 的 概念 也 必须 加 以 推广 。 每 个 样本 关联 一 个 新 参数 概 座 。 当 一 个 具有 未 
若 值 的 样 例 从 7 指派 子 集 到 7 时， EEF T, 的 概率 为 1， 而 属于 其 他 子 集 的 概率 为 0。 当 一 
“MER AAT, WA 1A He CRE EG 因此 ，C4.5 将 每 个 子 集 7, 中 的 每 个 (具有 缺失 值 
的 ) 样 本 关联 到 一 个 权重 w( 表示 案例 属于 这 个 子 集 的 概率 ) 。 为 了 使 解 更 一 般 ， 必 须 考虑 划 
分 前 样本 的 概率 (在 决策 树 构造 的 其 后 迭代 中 ) 并非 总 是 等 于 1 的 情况 。 这 样 ， 划分 后 缺失 
值 的 新 参数 w,,, 等 于 划分 前 旧 参 数 ww ua 乘 以 样本 属于 每 个 子 集 的 概率 P(T, Jo 形式 地 ， 

Waw = Wad À EL Ey) 

使 用 属性 1 上 的 测试 x, 将 集合 7 划分 成 子 集 后 . 具有 缺失 值 的 记录 将 出 现在 所 有 3 个 
TRP, ARER 5-12 中 给 出 。 新 权重 w, 将 等 于 5/13、3/13 和 5/13， 因 为 w 的 初 值 ( 旧 
值 ) 等 于 1。 新 的 子 集 在 表 5-12 中 。 现 在 ,在 C4.5 th, fe 不 再 解释 为 集合 T; 中 的 元 素 个 
数 ， 而 是 解释 为 给 定 集合 7, 中 所 有 权重 w 之 和 。 根 据 表 5-12, 这 些 新 值 为 | 7 | =5 +5/13, 
PARERA dnl Bl Son Silas 


表 5-12 Ex 上 的 测试 结果 子 集 ( 初始 集 了 中 包含 缺失 值 ) 





属性 2 属性 3 类 w 

70 True Classl 1 

90 True Class2 1 

85 False Class2 1 

95 False Class2 1 

70 False Classl p 

90 True Classi 13-May 
T,: (属性 1 =A) 

90 True Classl 13-Mar 

78 False Class 1 

65 True Classl 1 

75 False i Classl ] 
T,: (属性 1 =B) 

80 True Class2 i 

70 True Class2 1 ; 

80 False Classl 1 


80 False Cjlassl l 
Sa Ch Wa PL RUT ane ec cee S S eaa E e oe ae a ee 
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( 续 ) 
属性 2 属性 3 类 w 
96 False Classl pat 
90 True Classl : 13-May 
T,: (Æ 1 =C) 


如 有 果 这 些 子 集 被 属性 2 和 属性 3 上 的 测试 进一步 划分 ， 则 这 个 具有 缺失 值 的 数据 集 的 最 
终 决策 树 如 图 5-2 所 示 。 


Attribute2 <= 70 

Classification = CLASS 

Classification = CLASS 
Elseif Attributel = B 


Then 
Classification = CLASS 


Elseif Attributel = C 
Then 
LE Attribute3 = True 


Then 

Classification = CLASS 2 
Else 

Classification = CLASS 1 





图 5-2 具有 缺失 值 的 数据 集 了 的 决策 树 


图 5-2 中 的 决策 树 与 其 他 决策 树 具有 相同 的 结构 ， 但 是 由 于 最 终 分 类 的 不 明确 性 ， 每 个 决策 
附加 了 两 个 形 如 ( T, 1/E) 的 参数 。| 7 | 是 到 达 该 树叶 的 样本 之 和 , 瓦 是 属于 非 指定 类 的 样本 数 。 

fli, (3.4/0. 4) RER 3. 4( Be 3 +5/13) 个 训练 样本 到 达 该 树叶 ， 其 中 0.4( 或 5/13) 个 
样本 不 属于 指派 到 该 树叶 的 类 。 可 以 用 百分数 表示 参数 | 7 A E: 

给 定 树 叶 上 的 案例 中 3/3.4*100% =88% 将 被 分 到 类 2 

给 定 树 叶 上 的 案例 中 0.4/3.4 * 100% =12% 将 被 分 到 类 1 

在 决策 树 用 于 对 先前 未 在 数据 集中 出 现 的 样本 分 类 时 (检验 阶段 )，C4.5 采用 类 似 的 方 
法 。 如 果 所 有 的 属性 值 已 知 ， 则 该 过 程 十 分 简单 。 从 决策 树 的 根 节点 开始 ; 属性 值 上 的 测试 
决定 决策 树 的 遍历 ， 并 且 算 法 将 在 一 个 叶 节点 上 结束 ， 该 叶 节点 将 唯一 确定 测试 案例 的 类 
(或 属于 类 的 概率 ， 如 果 训 练 集 具有 缺失 值 的话 )。 如 果 相 关 测 试 属性 的 值 未 知 ， 则 不 能 确 
定 测试 的 输出 。 此 时 ， 系 统 将 考察 该 测试 的 所 有 可 能 输出 ， 并 组 合 结果 分 类 。 由 于 从 树 的 根 
节点 或 子 树 到 这 些 树 叶 可 能 存在 多 条 路 径 ， 因 此 分 类 的 结果 可 能 是 类 分 布 ,而 不 是 单个 类 。 
当 被 检验 的 案例 的 整个 类 分 布 建 立 后 ， 则 指定 具有 最 高 概率 的 类 为 预测 的 类 。 


5.7 ”后 处 理 


i 
识 过 滤 : 规则 截断 和 后 剪 枝 。 如 果 训 练 数据 包含 噪声 ， 则 学 习 算法 将 产生 涵盖 少量 训 
he， 原因 是 学 习 算 法 试图 将 训练 对 象 的 子 集 划 分 成 更 小 的 真 


4 


` 100 | er Be 


正 一 致 的 子 集 。 为 了 克服 这 一 问题 ， 必 须 通过 (决策 树 ) 后 剪 枝 或 (决策 规则 ) 截断 对 决策 树 
或 决策 规则 集 进行 处 理 。 

解释 : 我 们 可 以 直接 用 获得 的 知识 进行 预测 ， 或 作为 知识 库 在 专家 系统 中 使 用 。 如 果 是 
为 终端 用 户 执行 知识 发 现 过 程 ， 则 通常 文档 形式 提供 产生 的 结果 。 另 一 种 可 能 的 方式 是 将 知 
识 可 视 化 ， 或 转换 成 终端 用 户 可 理解 的 形式 。 此 外 ， 我 们 还 可 以 检查 新 知识 是 否 与 先前 发 现 
的 知识 相互 抵触 。 在 这 一 步 中 ,我们 还 可 以 汇总 规则 ， 将 它们 和 为 给 定 任务 提供 的 领域 知识 
相 结合 。 

评估 : 学 习 系统 根据 训练 数据 集 归 纳 出 概念 假定 (模型 ) 之 后 ， 应 当 对 它们 进行 评估 ( 检 
验 )。 对 此 ， 有 一 些 广泛 使 用 的 标准 : 分 类 的 准确 性 、 可 理解 性 、 计 算 复杂 性 等 。 

知识 集成 : 传统 的 决策 制定 系统 依赖 于 单一 模型 。 新 的 、 复 杂 的 决策 支持 系统 组 合 或 提 
炼 由 多 个 通常 使 用 不 同 的 方法 产生 的 模型 而 得 到 的 结果 。 这 种 过 程 提高 了 决策 的 准确 性 和 成 
功 概率 。 
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6.1 S| ey 


在 过 去 的 数 年 中 ， 数 据 挖掘 研究 者 从 众多 领域 收集 了 一 些 用 于 研究 的 数据 集 。 这 些 年 
来 ， 其 中 一 些 数据 集 已 经 成 为 比较 不 同 机 器 学 习 算 法 的 不 同 特点 的 标准 数据 集 。 不 同 的 数据 
集 揭示 不 同 的 问题 。 在 我 们 考虑 新 的 学 习 方法 时 ， 留 意 这 些 问 题 是 有 益 的 。 在 本 章 中 ， 我 们 
将 介绍 其 中 的 一 些 数据 集 ， 这 些 数据 集 对 于 课堂 教学 是 有 用 的 。 我 们 还 将 讨论 这 些 标准 数据 
集 的 来 源 和 描述 (但 某 些 数据 集 缺 少 描述 ) 。 我 们 将 讨论 的 数据 集 有 : 

1) 隐 形 眼镜 。 

2) 总 尾 属 植物 数据 库 。 

3) FURIE DE FE o 

4) 工 资 数据 库 。 

5 ) 信 用 数据 库 。 

6) 住 宅 数据 库 。 

7)1985 年 汽车 进口 数据 库 。 

8 ) 徽章 问 题 。 


6.2 ”隐形 眼镜 


名 称 : 选择 合适 隐形 眼镜 的 数据 库 。 
来 源 : J. Cendrowska, PRISM: An eer. for inducing modular rules, International Jour- 
nal of Man-Machine Studies, 27, 349-370, 1987, 





样本 数 : 

属性 数 . 了 都 是 标 称 属性 ) 

属性 信息 : 

目标 变量 Contact- lenses( 隐形 眼镜 ) (3 个 类 ) ， 


1) 患 者 适合 用 人 硬 隐 形 眼 镜 。 

2) 患 者 适合 用 软 隐形 眼镜 。 

3) 患 者 不 适合 用 隐形 眼镜 。 

预测 变量 : 

(1 )age( 患 者 年 龄 ” ) 

a) young( 年 轻 ) 

b) pre- presbyopic( 提前 老 花 ) 

c ) presbyopic ( 老 花 ) 

(2) Spectacle prescription( 验光 人 处方 ) 


O 为 了 方便 读者 阅读 arff 格式 文件 ， 我 们 介绍 变量 (属性 ) 时 给 出 它们 的 中 英文 。 一 一 译 者 注 
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a) myope ( 近视 ) 

b ) hypermetrope ( 远视 ) 

(3 ) astigmatic ( 散光 ) 

a) no( F) 

b)yes(#z) 

(4) tear production rate ( 流泪 ) 

a) reduced (减少 ) 

b ) normal ( 正常 ) 

缺失 属性 值 数 量 : 0 

类 分 布 : 

1 ) 便 隐形 眼镜 : 4 

2) 软 隐 形 眼 镜 : 5 

3 ) 无 隐形 眼镜 : 15 

注意 : 数据 集 存储 在 电子 数据 表 或 arff 格式 (Attribute Relation File Format ) 文件 中 。arff 
格式 的 描述 在 第 8 章 申 详细 给 出 。 以 多 开始 的 行 是 注释 ; 文件 开始 处 的 注释 之 后 是 关系 名 和 
定义 属性 的 块 。 标 称 属性 后 是 它们 可 能 的 取 值 ， 括 在 花 括号 中 。 数 值 属性 后 是 类 型 。 这 里 ， 
我 们 给 出 一 些 ARFF 格式 的 数据 集 。 

arff 文件 





@relation contact-lenses 


@attribute age {young, pre-presbyopic, 
: presbyopic} 

@attribute spectacle-prescrip {myope, hypermetrope} 

@attribute astigmatism {no, yes} 

@attribute tear-prod-rate {reduced, normal} 

@attribute contact-lenses {soft, hard, none} 

@data 

% | 

% 24 instances 

% 


young, myope, no, reduced, none 
young,myope,no,normal,soft ` 

young, myope, yes, reduced, none 

young, myope, yes, normal, hard 

young, hypermetrope, no, reduced, none 

young, hypermetrope,no,normal,soft 

young, hypermetrope, yes, reduced, none 

young, hypermetrope, yes, normal, hard 
pre-presbyopic, myope,no, reduced, none 
pre-presbyopic,myope,no,normal, soft 
pre-presbyopic,myope, yes, reduced, none 
pre-presbyopic, myope, yes, normal, hard 
pre-presbyopic, hypermetrope,no, reduced, none ` 
pre-presbyopic, hypermetrope,no,normal, soft 
pre-presbyopic, hypermetrope, yes, reduced, none 
pre-presbyopic, hypermetrope, yes, normal, none 


| $a ROOF 
ap a S E ee ee 


presbyopic,myope,no, reduced, none 
presbyopic, myope,no, normal, none 
presbyopic, myope, yes, reduced, none 
presbyopic,myope, yes, normal, hard 
presbyopic, hypermetrope, no, reduced, none 
presbyopic, hypermetrope,no,normal,soft 
presbyopic, hypermetrope, yes, reduced, none 
presbyopic, hypermetrope, yes, normal, none 





= 减少 = 正常 


= No = Yes 


= 近视 ”= 远视 


图 6- “隐形 眼镜 "数据 集 的 决策 树 
6.3 和 芒 尾 属 植物 数据 库 


名 称 : SB WAH E 
来 源 : 创建 者 . R. A. Fisher, The use of multiple measurements in taxonomic problems An- 


nual Eugenics, 7, Part II, 197-188, 1936, 又 见 Contributions to Mathematical Statistics, John 
Wiley, NY, 1950, 

相关 信息 : 这 可 能 是 模式 识别 文献 中 最 著名 的 数据 集 。Fisher 的 文章 是 该 领域 的 经 典 文 
献 ， 至 今 仍 被 频繁 引用 (例如 ， 见 Duda 和 Hart) 。 该 数据 集 包 含 3 个 类 ， 每 个 类 50 个 实例 ， 
其 中 每 个 类 涉及 一 种 类 型 的 营 尾 属 植物 。 一 个 类 与 其 他 两 个 类 是 线性 可 分 的 ， 而 后 两 个 类 之 
间 不 是 线性 可 分 的 。 ia 

被 预测 属性 : 车 尾 属 植物 的 类 。 

样本 数 : 150(3 个 类 ， 每 个 类 50 个 样本 六 

属性 数 : 4 个 数值 预测 属性 和 类 属性 。 - 

属性 信息 : 

1 ) Sepal length( cm) ($F KE) 

2) Sepal width ( cm) ( 3 yr JE) 

3 ) Petal length( em) ( 花 办 长 度 ) 

4 ) Petal width( cm) ( 4E IR TE JE ) 

5 ) 类 : 


均值 
5. 84 


# 握 £ 

e il ŠE 

e TESE 

e F JEES E 

缺失 属性 值 : 无 

iL 总 统计 : 

最 小 值 最 大 值 

苯 片 长 度 4.3 7.9 
aE ey HE 2 4.4 
花瓣 长 度 l 6.9 
AGRE DE RE 0.1 2.5 
类 分 布 :- 每 个 类 33-3%6 


@RELATION iris 


@ATTRIBUTE sepallength REAL 


@ATTRIBUTE sepalwidth REAL 
@ATTRIBUTE petallength REAL 
@ATTRIBUTE petalwidth REAL 


@ATTRIBUTE class 


@DATA 


WUOKDUwWROAWNHA WWI UU oO KPO WO PO DHF OAN OHR 
NN WUNUWUNUNNNUNNN WWW W nN WW ww Ww Ww WwW 
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ONOOWOIWI WOR WOADWHENNEPTORKBRODHNO UW 
AXP KHUUUUAWH WHE KKK PPP PPP PP PHP PP 


3. 05 
3. 76 
t2 


Iris-virginica} 


,Iris-setosa 
,Iris-setosa 
,Iris-setosa 


= 
`~ 


= 
` 


` 
` 


` 
- 
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,Iris-setosa 


` 
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` 
= 


` 
* 
- 
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WUAnRADWAWOrRroOWO HwWHI UNHAOW UN UP UU PY & UW PP SP 
RENN PNP NY PP Pe eee eee OC Oo 


, Lris-setosa 

, iris-versicolor 
,ilris-versicolor 
,ilris-versicolor 
, Lris-versicolor 
,lris-versicolor 
, Lris-versicolor 
, lris-versicolor 
,lris-versicolor 
, lris-versicolor 
,lris-versicolor 
,ilris-virginica 
,Lris-virginica 
Iris-virginica 
,lris-virginica 
,ilris-virginica 
,ilris-virginica 
,lris-virginica 
,lris-virginica 


` 
~ 


`- 
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w 


~ 
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~ 
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` 
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` 
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> 
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> 
` 
bad 


` - ` ~ 
> ~ = ` 


` 
= 


标准 差 
0. 83 
0. 43 
1.76 
0. 76 


{Iris-setosa, Iris-versicolor, 
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类 相关 

0. 7826 

-0.4194 
0. 949( 高 !) 
0. 9565( #5!) 
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8,1.8,Iris-virginica 
.1,2.5,Iris-virginica 





花瓣 宽度 
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6.4 FUERTE ZUA TE 


名 称 : 威斯康星 乳腺 癌 数 据 库 
来 源 : 
e William H. Wolberg 博士 (内 科 医 生 ) 
威斯康星 大 学 医院 
麦迪 了 逮 ， 威 斯 康 星 
美国 
o 捐赠 人 : Olvi Mangasarian( mangasarian@ cs. wisc. edu) 


David W. Aha 接收 (aha@ cs. jhu. edu) 
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e 日 期 : 19924475 15 H 

样本 数 : 699(1992 年 7 月 15 日 数据 ) 
属性 数 : 10 加 上 类 属性 

属性 信息 ” : (类 属性 在 最 后 一 列 ) 


序号 属性 域 | 序号 属性 域 


l 样本 编码 号 ID 号 7 裸 细 胞 核 1-10 

2 肿块 厚度 1-10 8 温 性 染色 质 1-10 

3 细胞 大 小 的 均匀 性 110" g 9 正常 核 仁 1-10 

4 细胞 形状 的 一 致 性 1-10 10 有 丝 分 裂 oD 

5 边缘 粘连 1-10 11 类 (2 为 良性 ，4 为 恶性 ) 
6 单个 上 皮 细 胞 大 小 Meh tO Gs 

缺失 属性 值 : 16 

在 第 1 ~6 组 中 有 16 个 实例 缺失 单个 属性 值 ， 现 在 用 “?” 标 记 。 

类 分 布 : Pe 


RTE: 458(65.5% ) 
WHE: 241(34.5% ) \ 
bewdisc. arff 文件 是 前 面 介绍 的 乳腺 癌 数 据 库 的 离散 化 版 本 。 


@relation breast cancer 


@attribute Clump Thickness {0, 1, 2} 

@attribute Uniformity_of Cell Size {0, 1, 2} 
@attribute Uniformity_of Cell Shape {0, 1, 2} 
@attribute Marginal Adhesion {0, 1, 2} ` 
@attribute Single Epithelial Cell Size {0, 1, 2} 
@attribute Bare Nuclei {0, 1, 2} 

@attribute Bland Chromatin {0, 1, 2} 

@attribute Normal Nucleoli {0, 1, 2} 

@attribute Mitoses {0, 1, 2} 

@attribute class {2, 4} 


@data 

4 0 00 070 n an Do 2 
L 2 a 2 a oR O 2 
人 
PANNE ANUE AE A o AE EEEE D NAN O a 
是 
0o 9 0 9 -9 2 ee 
9 0- 32 0 0 Cea eae 
00 0 0 Y 040.0 22 
1 2-0 0:0 @6...0._0.-2 
0 0:0 00 0 Ae Ao 2 
ee oe a a a a A 


O ”数据 中 属性 名 的 对 应 中 文 名 见 下 表 中 属性 2 ~11, 一 一 译 者 注 


2 
1 
2 
2 
2 
2 
1 


RFPrFNNNN eH 


MP NNNNN N 


SOoOOrFrRNN FH 


NNFRFNNN FH 


=] 


NONNNN N 
NNRFFHNN IN 
ONNNON N 
ONOOON N 
心 rh PP PP 少 


图 6-3a) “从 患者 胸部 抽取 的 恶性 ( 左 ) 和 良性 ( 右 ) 细 胞 的 核 仁 


细胞 大 小 的 均匀 性 


I 
© 
li 
N 






4 (213.0/11.0) 


=0 


=1 =2 
0 


= 0 = J = 


i 2 
正常 核 仁 细胞 形状 的 一 致 性 
2 0 1 


= = =2 


图 6-3b) “乳腺 瘤 数据 集 的 决策 树 
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6.5 工资 数据 库 


@relation wages 


@attribute educ real 

@attribute south real 

@attribute nonwh real 

@attribute hispanic real 

@attribute gender real 

@attribute married real 

@attribute marrfem real 

@attribute exper real 

@attribute expersq real 

@attribute union real 

@attribute Inwage real 

@attribute age real 

@attribute manuf real 

@attribute constr real 

@attribute manag real 

@attribute sales real 

@attribute clerical real 

@attribute service real 

@attribute prof real 

@attribute cps85 {Year_1978,Year_ 1985} 

@data 

Le, 0, 0,0 ,90,0,0; 8:64, 0 1.22,25,0,0,0,0,0,1,0,Year_/1978 
i270, 0.0; 2, 2,2; 30, S00. Ll 0,0,0,0,1,0,0,Year_ 1978 
6,0,0,1,0,1,0,38,1444,1,2.14,49,0,1,0,0,0,0, 0; Year. 1978 
12,0,0,0,0,1,0,19,361,1,2.07,36,0,0,0,1,0, 0,@,Years1978 
12,0,0,0,0,1,0,11,121,0,1.65,28,0,0,0,0,(0,-0;,, 0; Year, 1978 
8,0,0,0,0,1,0,43,1849,0,1.71,56,0,0,0,0,0,0,0,¥ears1978 
Lt 0.05 0.50 0,0,2,4,0,1.1,18,1,0,0,0,0,0,0, Yeax 1978 
15,0,0,0,1,0,0,9,81,0,1.83,29,0,0,1,0,0,0,0, Year 1978 
16,0,0;,0,1,0,0,17;,289,0, 0.36736 0,0,0,0,0,0,1,Year 1978 
15,050; 0.40; 1; Osis, Geeaas 2 a 0,0,0,0,1,0,0,Year 1978 
15,0,0,0,0,1,0,39,1521,1,1.99,59,1,0,0,0,0,0,1,Year_ 1978 
12,0,0,1,1,1,1,5,25,1,1.7,22,0,0,0,0,1,0,0, Year. 1978 
kip CO pig 110,1, 027: 7291, 2,17, 03,1 0,0,0,0,0,0,Year_1978 
1270,0; 1,0 1,0,29,841,0,1.83,46,1,0,0,0,0,0,0,Year_1978 
12,0,0,1,0,0,0,7,49,0,1.31,24,1,0,0,0,0;0,0,Year 1978 
12,0,0,0,1,0,0,42,1764,1,2.23,59,0,0,0,0,0,1,0, Year 1978 
18,0,0,0,0,1,0,35,1225,1,2.53,58,0,0,0,0,0,0,1, Year 1978 
18,0,0,0,1,1,1,31,961,1,2.4,54,0,0,0,0,0,0,1,Year 1978 
6,0,0,1,0,1,0,24,576,0,1.25,35,1,0,0,0,0,0,0, Year 1978 
14, 0;51,0,0; 1,024, £96; 41,2206 33,0,0,0,0,0,0,0,Year_1978 
12,;0¢05.0, 1,0,0, 40; 1660.1 ,2.02 57, 0,0,0,0,0,0,1,Year_ 1978 
2,0,0, 0,4 0; 0, 10,100,0,1.2;27,0,0,1,0,0;0,0,;Year 1978 
130, 0,0,2,0,0, 33,0. 1:39 23,0, 0,0,1,0,0,0,Year 1978 
130,09,00, 0, 0,274, 0,2.23; 20, 0,0,0,0,1,0,0,Year 1978 
£5, 0,.0;,,1,0,0,0; 7,439, 0,1.5,27,0,0,0,0,1,0,0, Year 1978 


109 





10,0,0,0,0,1,0,27,729,0,2.2,43,0,1,0,0,0,0,0,Year 1985 
12,0,0,0,0,1,0,20,400,0,1.7,38,0,0,0,1,0,0,0, Year 1985 
12,0,0,0,1,0,0,4,16,0,1.34,22,0,0,0,1,0,0,0,Year 1985 
12,0,0,0,1,1,1,29,841,0,2.35,47,0,0,0,0,1,0,0, Year 1985 
12,0,0,0,0,1,0,40,1600,1,2.71,58,0,1,0,0,0,0,0,Year 1985 





S 2.15 ry 2.15 





图 6-4 “工资 "数据 集 的 决策 树 
6.6 信用 卡 数据 库 





@relation credit 


@attribute credit r {Yes, No} 
@attribute class real 
@attribute pay week real 
@attribute age real 
@attribute amex real 


@data 


XeB, 2/2, BAS 
NO, 2,1/2; 
4,1,1, E 


No, ý 
xXe8,2,2,2 0 
e8, 3,2,1,0 
Yes,1,2, 3 
Yes,2,2,340 
NO} 22. O 
HO) 2,452.10 
NO) 32 2,0 
No, 5,24,1,0 
No,4,1,1,1 
NO, 2,2: 2,2 
NOV 2s 2,2) o 
NO, 3,1,1,1 


HH He # Hl 


ES = 


ae >1 < } >1 
No (138.0/11.0) Age . C cuss» Yes (109.0/1.0) 
<2 $2 <2 >2 


图 6-5 “信用 卡 ” 数 据 集 的 决策 树 

6.7 ”住宅 数据 库 

来 源 : 

1 ) 起源 : 该 数据 集 取 自 StatLib 图 书馆 ， 由 卡 梅 基 … 梅 隆 大 学 维护 。 

2) 创建 者 : D. Harrison, and D. L. Rubinfeld, Hedonic prices and the demand for clean air, 
J. Environ. Economics and Management, vol.5, 81-102, 1978. 

3) H: 1393 LALA 

相关 信息 : 关注 波士顿 郊区 住宅 价格 。 

实例 数 : 200 

属性 数 : 13 个 连续 属性 (包括 “类 ”属性 MEDV), 上 个 二 元 属性 。 

属性 信息 : 

1) CRIM: 城镇 人 均 犯 罪 率 mile 

2) ZN: $ 25000 FFF SERA Le Bl 

3) INDUS; 每 个 城镇 非 零售 业 区 域 的 比例 

4)CHAS: Charles 河 哑 变 量 ( 如 果 区 域 限 于 河 ， 则 为 1; 否则 为 0) 

5)NOX: - 氮 氧 化 物 浓度 (每 千 万 ) 

6)RM: 每 个 住所 的 平均 房间 数 

7) AGE : 1940 年 之 前 建立 的 单元 比例 

8 ) DIS: 到 波士顿 的 5 个 工作 中 心 的 加 权 距 离 

9)RAD: 到 干线 公路 的 可 达 性 指数 


112 . 26% 





10) TAX: 每 一 万 美元 的 全 值 资 产 税 
11)PTRATIO : 城镇 小 学 生 -教师 比率 

12)B: 1000( -0.63)°, 其 中 b, 是 城镇 黑人 比例 
13)LSTAT: 低地 位 人 口 百分比 

14) MEDV: 房价 中 值 ( 千 美元 ) 

缺失 属性 值 : 无 





@relation housing 


@attribute crim real 
@attribute zn real 
@attribute indus real 
@attribute chas {Category 1, Category 2} 
@attribute nox real ) 
@attribute rm real 
@attribute age real 
@attribute dis real 
@attribute rad real 
@attribute tax real 
@attribute ptration real 
@attribute b real 
@attribute lstat real 
@attribute mdev real 


@data 


-01,18,2.31,Category_1,0.54,6.58,65.2,4.09,1,296,15.3,396.9,4.98,24 
-03,0,7.07,Category_1,0.47,6.42,78.9,4.97,2,242,17.8,396.9,9.14,21. 
-03,0,7.07,Category_1,0.47,7.19,61.1,4.97,2,242,17.8,392.83,4.03,34. 
-03,0,2.18,Category 1,0.46,7,45.8,6.06,3,222,18.7,394.63,2.94.33. 
-07,0,2.18,Category_1,0.46,7.15,54.2,6.06,3,222,18.7,396.9,5.33,36. 
-03,0,2.18,Category 1,0.46,6.43,58.7,6.06,3,222,18.7,394.12,5.21,28. 
-09,12.5,7.87,Category_1,0.52,6.01,66.6,5.56,5,311,15.2,395.6,12.43,22. 
-14,12.5,7.87,Category_1,0.52,6.17,96.1,5.95,5,311,15.2,396.9,19.15,27. 
-21,12.5,7.87,Category_1,0.52,5.63,100,6.08,5,311,15.2,386.63,29.93,16. 
-17,12.5,7.87,Category_1,0.52,6,85.9,6.59,5,311,15.2,386.71,17.1,18. 
-22,12.5,7.87,Category_1,0.52,6.38,94.3,6.35,5,311,15.2,392.52,20.45,15 
-12,12.5,7.87,Category 1,0.52,6.01,82.9,6.23,5,311,15.2,396.9,13.27,18. 
-09,12.5,7.87,Category 1,0.52,5.89,39,5.45,5,311,15.2,390.5,15.71, 21. 
-63,0,8.14,Category 1,0.54,5.95,61.8,4.71,4,307,21,396.9,8.26,20. 
-64,0,8.14, Category 1,0.54,6.1,84.5,4.46,4,307,21,380.02,10.26,18. 
-63,0,8.14,Category 1,0.54,5.83,56.5,4.5,4,307,21,395.62,8.47,19. 
-05,0,8.14,Category 1,0.54,5.94,29.3,4.5,4,307,21,386.85,6.58, 23. 
-78,0,8.14,Category 1,0.54,5.99,81.7,4.26,4,307,21,386.75,14.67,17. 
-8,0,8.14,Category_1,0.54,5.46,36.6,3.8,4,307,21,288.99,11.69,20, 
-73,0,8.14,Category 1,0.54,5.73,69.5,3.8,4,307,21,390.95,11.28,18. 
-25,0,8.14,Category 1,0.54,5.57,98.1,3.8,4,307,21,376.57,21.02,13. 
-85,0,8.14,Category 1,0.54,5.97,89.2,4.01,4,307,21,392.53,13.83,19. 
-23,0,8.14,Category 1,0.54,6.14,91.7,3.98,4,307,21,396.9,18.72,15. 
-99,0,8.14,Category_1,0.54,5.81,100,4.1,4,307,21,394.54,19.88,14. 
-75,0,8.14,Category 1,0.54,5.92,94.1,4.4,4,307,21,394.33,16.3,15. 
ep pe ee ee EE ee 


O U mio YN PY DH 


OOPOPOOOPOOOOOO OOO COCO GO oc o 


NAUNA ANN UF OND 心 、] 0 


je # 113 


<18.6 > 18.6 


Category _1(223.0/8.0) 


<4.86 > 4.86 


Category_1(23.0) 


<= 289 > 289 


age ategory_1(69.0/12.0) 


<86.5 >86.5 


Gi) en 


Category_2(4.0) 


< 13.22 >13.22 


= 0.23 > 0.23 


图 6-6 “住宅 ”数据 集 的 决策 树 


住宅 数据 的 回归 树 模型 ( 使 用 XLminer) 
住宅 数据 的 回归 树 如 图 6-7 所 示 。 该 树 可 以 读 作 : LSTAT( 低 地 位 人 口 百 分 比 ) 作为 第 一 


LSTA 


| 
RM LSTA 
59 19 48 76 
© 40.441935 20.887059 © 
RM 
33 


CRIM 


26 f 44 32 
24.646429 29.002326 17.339474 12.601961 


图 6-7 “住宅 "数据 集 的 回归 树 
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a a ee ita a eee ee 
个 划分 属性 ; 如 果 该 百分比 大 于 9. 65% (124 个 案例 ) W LSTAT 再 一 次 被 选 为 划分 属性 。 
现在 ， 如 果 该 百分比 小 于 等 于 14. 805% (48 个 案例 ) Jl] MEDV 被 预测 为 20.89 美元 。 因 
此 ， 我 们 的 第 一 个 规则 为 : 如 果 LSTAT >9.65% 并 且 LSTAT <14. 805% ， 则 MEDV = 20. 89 
5 ae 

如 果 LSTAT <9. 65% ， 则 我 们 用 RM ( 每 个 住所 的 平均 房间 数 ) 作 为 下 一 个 划分 属性 。 如 
AL RM >7. 141% (19 个 案例 ) ， 则 这 些 案例 的 MEDV 被 预测 为 40. 44 美元 (40. 44 美元 是 另 一 


AHRR) Ak, 我们 的 第 三 个 规则 是 .如果 LSTAT <9. 65% 并 且 RM > 7. 141% ， 则 
MEDV =40. 44 美元 。 


6.8 1985 年 汽车 进口 数据 库 


来 源 信息 : | 
创建 者 /捐赠 人 : Jeffrey C. Schlimmer ( Jeffrey. Schlimmer@ a. gp. cs. cmu. edu) 
日 期 : 1987465 9 19 H | 
1) 1985 年 进口 汽车 和 卡车 说 明 。1985 年 Ward 汽车 年 鉴 。 

2) 个 人 汽车 手册 ，Insurance Services Office, 160 Water Street, New York, NY 10038, 

3 ) 保 险 碰 撞 报 告 ， 公 路 安全 保险 公司 ，Watergate 600, Washington, DC 20037 。 

相关 信息 ; i 

描述 : 该 数据 集 包含 3 种 类 型 的 实体 :QD 汽车 各 种 特性 的 说 明 s-@ 它 的 保险 风险 率 。@) 
与 其 他 汽车 相 比 ， 它 的 规范 化 的 损失 赔偿 额 。 第 二 个 比率 对 应 于 该 汽车 的 风险 高 于 相同 价格 
的 其 他 汽车 的 程度 。 

开始 ， 汽 车 被 赋予 一 个 与 其 价格 相关 联 的 风险 因子 符号 。 之 后 ， 如 果 它 的 风险 更 大 (或 
更 小 ) ， 则 该 因子 符号 向 上 (或 向 下 ) 调整。 保险 员 称 该 过 程 为 “用 符号 表示 ”。 值 +3 指出 该 
汽车 是 有 风险 的 ， 而 -3 指出 该 汽车 相当 安全 。 

第 三 个 因子 是 每 个 车 辆 保险 年 度 的 相对 平均 损失 赔偿 。 这 个 值 是 对 特定 分 类 ( 两 门 小 汽 
车 、 客 货 两 用 车 、 运 动 /特殊 车 辆 等 ) 的 所 有 汽车 规范 化 值 ， 表 示 每 年 每 辆 汽车 的 平均 损失 。 

注意 : 该 数据 库 中 的 多 个 属性 可 以 用 作 “ 类 ”属性 。 

实例 数 : 205 

属性 数 : 总 共 26 个 

。 15 个 连续 属性 。 


el 个 整 型 属性 。 
e 10 个 标 称 属性 。 
属 性 信 息 : 
属 性 属性 值 域 
1. symboling -3 -2, HP OVI, 2,13 
2. normalized- losses 连续 ， 从 65 ~256 
3. make “alfa- romero, audi, bmw, chevrlet, dodge, honda, isuzu, jaguar, mazda, mercedes- 
benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, 
toyota, volkswagen, volvo 
4. fuel-type Sei, Muh 
5. aspiration 标准 ， 涡 轮 


6. num- of- doors 4,2 


RM E R 


属 人 性 
7. body- style 
8. drive- wheels 
9. engine- location 
10. wheel-base 
11. length 
12. width 
13. height 
14. curb- weight 
15. engine- type 
16. num- of- cylinders 
17. engine- size 
18. fuel-system 
19. bore 
20. stroke 
21. compression- ratio 
22. horsepower 
23. peak-rpm 
24. city- mpg 
25. highway- mpg 
26. price 


属性 值 域 
便 顶 ， 货 车 ， 私 家 轿车 ， 后 开车 门 小 客车 ， 敞 篷 
4 轮 驱 动 ， 前 轮 驱 动 ， 后 轮 驱动 
前 部 ， 后 部 
连续 ， 从 86.6 ~120.9 
jez, M141. 1 ~ 208. 1 
连续 ， 从 60. 3 ~72.3 
连续 ， 从 47.8 ~59.8 
有 连续， 从 1488 ~ 4066 
dohe, dohev, 1, oht, ohef, ohev, rotor 
Sh Se AS 93 S12 
连续 ， 从 61 ~ 326 
1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi 
连续 ,从 2. 54 ~3.94 
连续 5 ,从 2.07 ~4. 17 
连续 ,从 7.~23 
连续 ,从 48 ~ 288 
连续 ， 从 4150 ~ 6600 
连续 ， 从 13 ~49 
连续 ,从 16~54 
连续 ， 从 5118 ~45400 


KARIE: (H? 标记 ) 


@relation 

@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 
@attribute 


属性 编号 缺失 一 个 值 的 实例 数 
2 4l 
6 2 
19 4 
20 4 
22 2 
23 2 
26 4 


‘autoPrice.names' 
symboling real 
normalized-losses real 
wheel-base real 

length real 

width real 

height real 
curb-weight real 
engine-size real 

bore real 

stroke real 
compression-ratio real 
horsepower real 
peak-rpm real 
city-mpg real 
highway-mpg real 


115 


( 续 ) 
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@attribute class real 
@data 


2,164,99.8,176.6,66.2,54.3,2337,109,3.19,3.4,10,102,5500, 24,30, 13950 
2,164,99.4,176.6,66.4,54.3,2824,136,3.19,3.4,8,115,5500,18, 22,17450 
1,158,105.8,192.7,71.4,55.7,2844,136,3.19,3.4,8.5, 110, 5500,19, 25, 17710 
1,158,105.8,192.7,71.4,55.9,3086,131,3.13,3.4,8-3,140,5500, 17,20, 23875 
2,192,101.2,176.8,64.8,54.3,2395,108,3.5,2.8,8.8,101,5800, 23, 29, 16430 
0,192,101.2,176.8,64.8,54.3,2395,108,3.5,2.8,8.8,101,5800, 23,29, 16925 
0,188,101.2,176.8,64.8,54.3,2710,164,3.31,3.19,9,121,4250,21,28,20970 
0,188,101.2,176.8,64.8,54.3,2765,164,3.31,3.19,9,121, 4250, 21,28,21105 
2,121, 88.4,141.1,60.3,53.2,1488,61,2.92/3.503,9.5,486, 5100, 47,53, 5252 
1,98,94.5,155.9,63.6,52,1874,90,3.03,3+11,9.6, 70; 5400,38,43,6295 
0,81,94.5,158.8,63.6,52,1909,90,3.03,3.11,:9.6,70,5400,38,43,6575 
1,118,93.7,157.3,63.8,50.8,1876,90,2.97%, 3.23 ,9::41,-68 , 5500, 37,41,5572 
1,1186,93.7,157.3,63.8,50.8, 1876, 90,2 .97,:3.-235 9.4)66,5500, 31,38, 63772 
1,118,93.7,157.3,63.8,50.8,2128,98,3.03,3 §39, 716,102, 5500, 24,30, 7957 
1,148,93.7,157.3,63.8,50.6,1967,90,2 .97,32 23, 9.4;68, 5500, 31,38, 6229 
1,148,93.7,157.3,63.8,50-.6,1989,90,2.97,3..23, 9.4,68,5500, 31,38, 6692 
1,148,93.7,157.3,63.8,50.6,1989,90,2.97,3.23,9.4,68,5500, 31,38, 7609 
1,110,103.3,174.6,64.6,59.8,2535,122,3.34,3.46,8.5,88,5000,24,30,8921 
3,145,95.9,173.2,66.3,50.2,2811,156,3.6,3,.9, 1, 149, 5000, 19,24, 12964 
2,137,86.6,144.6,63.9,50-.8,1713, 92,2.91,3.41,9.6,58,4800, 49,54, 6479 
2,137,86.6,144.6,63.9,50.8,1819,92,2-91,3.41,39.2, 76,6000, 31,38,6855 
1,101, 93.7,150,64,52.6,1837,79,2.91,3.07,10.1, 60,5500, 38, 42,5399 
1,101, 93.7,150,64,52.6,1940,92,2.91,3-41,9.2,76,6000,30,34,6529 
1,101, 937,250,64 ,52.6,1956,92,2.91,3.41,9.2,76,6000,30,34, 7129 





线性 回归 模型 (使 用 Weka 的 工具 ) : 当 类 是 连续 的 时 ， 可 以 使 用 简单 线性 回归 学 习 一 个 
线性 模型 ， 即 一 条 最 接近 所 有 实例 的 直线 的 方程 。 例 如 ， 根 据 “ 汽 车 价格 ”(autoPrice ) 数据 
集 ， 线 性 回归 工具 学 习 得 到 : 

price = —59400 +79. 8symboling +7. 14normalized- losses + 198wheel- base 
— 92. Slength + 767 width + 38. 9height +5. O9curb- weight +49. 9engine- size 
— 1810bore — 1840stroke + 104compression- ratio + 26. 1 horsepower 
+0. 753 peak- rpm + 18. 9city- mpg — 13. Shighway-mpg 

回归 树 模 型 (使 用 Weka 的 工具 ) : 回归 树 是 一 棵 决策 树 ， 其 树叶 是 落 入 每 个 分 支 的 数值 类 
的 平均 值 。 这 种 树 的 内 部 节点 是 非 类 属性 。 对 于 “汽车 价格 ”数据 集 ， 回 归 树 工具 学 习 得 到 : 


curb-weight <= 2660 
| curb-weight <= 2290 

| | curb-weight <= 2090 

| | | lemgth <= 161 : price=#6220 

| | f bength > 161 : prices7156 

| | curb-weight > 2090 : price=8010 

| curb-weight > 2290 

| | length <= 176 : price=9680 

| | length > 276: 

| | | normalized-losses <= 157 : price=10200 
| | | normalized-losses > 157 : price=15800 


HR F< Ziz 


curb-weight > 2660 
| width <= 68.9 : price=16100 
| width > 68.9 : price=25500 


模型 树 : 模型 树 是 一 棵 决策 树 ， 其 内 部 节点 是 非 类 属性 ， 而 叶 节 点 是 线性 模型 。 这 种 树 
的 分 支 选 择 运行 模型 。 对 于 “汽车 价格 "数据 集 ， 模 型 树 工 具 学 习 得 到 : 


curb-weight <= 2660 

| curb-weight <= 2290 : LM1 
| curb-weight > 2290 

| | Temgeh <= 176 : 1M2 

| | Jemgth = 176 p TMS 
curb-weight > 2660 

| width <= 68.9 : LM4 

| width > 68.9 : LMS 


其 中 : 
LM1: price = -5280 + 6.68normalized - losses + 4.44curb ~ weight 
+ 22.1horsepower -85.8city-mpg + 98.6highway - mpg 
LM2: price 9680 
LM3: price -1100 + 9inormalized - losses 


LM4: price 
LMS: price 


9940 + 47.5horsepower 
-19000 + 13.2curb - weight 


6.9 徽章 问题 


机 需 学 习 数 据 集 (http : //archive. ics. uci. edu/ml/ ) 最 好 的 数据 集 之 三 和 包括 称 作 徽章 问题 
的 娱乐 数据 集 。Hakan Kjellerstrand 给 出 了 该 问题 的 一 个 解决 方案 。 


6.9.1 问题 描述 


天 于 该 问题 没有 多 少 信息 (开玩笑 !) 。 每 个 数据 对 象 包括 一 个 人 名 和 一 个 符号 ( + 或 
) 
名 称 : ML94/COLT94 徽章 问题 
信息 来 源 : 
e 创建 者 : Haym Hirsh, 根据 Rob Schapire 的 想法 
e 捐赠 人 : Haym Hirsh(hirsh@ cs. rutgers. edu ) 
e 日 期 : 1994 年 9 月 
以 往 用 法 : 1994 AED LAE IT WA 1994 年 计算 学 习 理 论 会 议 的 提前 注册 的 与 会 者 都 
收 到 一 个 用 ”+“ 或 ”- ”标记 的 徽章 。 标 记 根 据 只 有 徽章 产生 器 (Haym Hirsh) 才 知道 的 某 
个 浮 数 产生 ， 并 且 只 依赖 于 与 会 者 的 名 字 。 与 会 者 的 目标 是 识别 用 于 产生 +/= 标 记 的 未 
AI PRI BN o 

相关 信息 : 使 用 程序 自动 发 现 未 知 目标 函数 的 问题 之 一 是 决定 如 何 对 名 字 编 码 ， 使 得 可 
以 应 用 该 程序 。 下 面 提供 的 数据 以 +/ -标记 后 随 人 名 的 形式 出 现 。 学 习 系统 的 用 户 自 行 决 
定 如 何 将 该 数据 转换 成 系统 可 以 接受 的 形式 (例如 ， 如 果 你 所 用 的 学 习 器 需要 特征 向 量 数 
据 ， 你 使 用 什么 属性 ) 。 
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6.9.2 部 分 数据 


+ Naoki Abe 

— Myriam Abramson | 
+ David W. Aha 

+ Kamal M. Ali 

— Eric Allender 

+ Dana Angluin 

— Chidanand Apte 
+ Minoru Asada 

+ Lars Asker 

+ Javed Aslam 

+ Haralabos Athanassiou 
+ Jose L. Balcazar 
+ Timothy P. Barber 
+ Michael W. Barley 
— Cristina Baroglio 
+ Peter Bartlett 

— Eric Baum 

+ Welton Becket 

— Shai Ben-David 

+ George Berg 

+ Neil Berkman 

+ Malini Bhandaru 
+ Bir Bhanu 

+ Reinhard Blasig 

— Avrim Blum 

— Anselm Blumer 

+ Justin Boyan 

+ Carla E. Brodley 
+ Nader Bshouty 

— Wray Buntine 

— Andrey Burago 

+ Tom Bylander 


+ Bill Byrne 
— Claire Cardie 


+ Richard A. Caruana 
+ John Case 

+ Jason Catlett 

+ Nicolo Cesa-Bianchi 
— Philip Chan 

+ Mark Changizi 

+ Pang-Chieh Chen 

— Zhixiang Chen 

+ Wan P. Chiang 

— Steve A. Chien 


KH ££ £ 119 


+ Jeffery Clouse 
+ William Cohen 


Hakan Kjellerstrand 的 解决 方案 如 下 (用 作者 自己 的 话 ): 

首先 要 认识 到 ， 仅 靠 原 始 文件 中 的 数据 无 法 完成 我 们 的 机 器 学 习 任务 。 因 此 ， 必 须 包 括 
其 他 一 些 属性 ， 如 长 度 、 计 数 等 。 但是， 长 度 或 计数 是 多 少 ? 当然 ， 我 们 可 以 坐 下 来 并 花 时 
间 解 决 它 ( 这 或 许 很 好 ) ， 但 是 我 个 人 的 目的 是 使 用 机 融和 学 习 工 具 。 

注意 : 我 假定 通过 把 人 名 看 作 字 符 串 来 找 出 解决 方案 。 也 就 是 说 ， 这 个 解决 方案 不 能 太 
牵强 附会 ， 利 用 未 在 数据 集中 给 出 数据 的 信息 (如 与 会 者 的 身高 、 年 龄 或 他 在 会 议 上 做 报告 
的 时 间 ) 。 

需要 一 点 时 间 考 虑 ， 产 生 几 个 可 能 的 解 。 正 如 你 看 到 的 ， 利 用 我 所 尝试 的 属性 个 数 ， 我 
没有 直接 得 到 解 。 | big 

属性 名 和 类 型 解释 


name|...| 所 有 人 名 (原始 形式 ) 

length， 数 值 AAKE i 

even. odd, {0, 1} ' 火 名 长 度 是 偶数 还 是 奇数 ? 

first_ char_ vowel, |0, 1| .10 第 一 个 字符 是 元 音字 母 ? 

second char_ vowel, |0, 1} 第 二 个 字符 是 元 音字 母 ? 

vowels， 数 值 名 字 中 元 音字 母 的 个 数 

consonants , 数值 音字 母 个 数 Lp + 
vowel_ consonant_ ratio， 数 值 元 音 与 辅音 字母 的 比 ( 这 是 牵强 附会 ?) 
spaces， 数 值 空格 数 

dots， 数 值 名 字 中 的 “. " 数 ， 即 名 字 缩 写 
words ， 数 值 词 个 数 ， 即 名 字数 ， 包 括 大 写 缩写 
class, { +, -| 徽章 标记 ( 原 数据 给 定 ) 


使 用 Weka 的 结果 : Weka 产生 如 下 结果 : 


J48 pruned tree 
second char vowel = 0: - (84.0) 
second char vowel = 1: + (210.0) 


=== Error on training data === 
Correctly Classified Instances 294 100% 
=== Confusion Matrix === 

a b <— classified as 

64°90 | a = - 

6 210 i.b = + 


因此 ， 规 则 是 : 
“如 果 人 名 的 第 二 个 字母 是 元 音字 母 ， 则 徽章 符号 是 + ， 否 则 为 -。 


第 7 章 ， 关 联 规 则 挖掘 


AL Ae 


向 言 之 ， 关 联 规则 挖掘 (也 称 相 依 分析 ) 是 研究 “什么 与 什么 相伴 ”。 例如 ， 医 学 研究 
首 可 能 对 认识 哪些 症状 伴随 哪些 已 有 诊断 感 兴 趣 。 这 些 方法 又 称 为 购物 篮 分 析 ( marker 
basket analysis) ， 因 为 该 问题 源 于 研究 顾客 事务 数据 库 ， 以 确定 购买 商品 之 间 的 相关 性 。 
条 码 技术 的 进步 使 得 零售 商 们 可 以 收集 和 存储 大 量 销售 数据 ;这些 数据 被 称 为 购物 篮 数 
撕 。 关 联 规则 挖掘 可 以 在 包含 这 种 数据 项 的 大 型 集中 发 现 有 趣 的 关联 和 相关 联系 。 关 联 
规则 展示 在 给 定数 据 集中 频繁 一 起 出 现 的 属性 值 条 件 。 这 种 规则 的 一 个 例子 是 98% 的 购 
天花 胎 和 汽车 配件 的 顾客 也 得 到 汽车 服务 。 找 出 这 样 的 规则 对 于 交叉 销售 ( cross market- 
ing) 和 配送 服务 是 有 价值 的 。 关 联 规则 也 用 于 其 他 应 用 ， 如 通过 识别 故障 前 发 生 的 事件 预 
测 通信 网 络 故障 。 


7.2 事务 数据 库 中 关联 规则 的 自动 发 现 


中 客 事务 细节 信息 的 可 用 性 是 开发 自动 发 现存 放 在 数据 库 中 商品 之 间 关 联 的 技术 的 动 
力 。 一 个 例子 是 超市 中 使 用 条 码 扫描 器 收集 的 数据 。 这 种 购物 篮 数据 库 由 大 量 事务 记录 组 
成 。 每 个 记录 列 出 了 顾客 一 次 购物 交易 所 购买 的 所 有 商品 。 经 理想 要 知道 是 否 某 些 商 品 总 是 
一 起 销售 。 他 们 可 能 使 用 这 些 数据 来 改善 商店 布局 、 优 化 商品 陈列 ， 他 们 也 可 能 使 用 这 些 信 
乱用 于 交 双 销售、 促销、 分 类 设计 和 基于 购买 模式 识别 顾客 组 群 。 关 联 规则 用 形 如 “if-then” 
的 语句 形式 提供 这 类 信息 。 这 些 规 则 从 数据 中 得 到 ， 并 且 与 逻辑 证 then 规则 不 同 ， 关 联 规 
则 本 质 上 是 概率 规则 。 图 7-1 是 这 种 数据 集 和 某 些 可 能 的 关联 的 一 个 例子 。 





i 尿布 1 一 | 啤酒 | 
[牛奶 ， 面 包 } 一 | 鸡蛋， 可乐 | 
1 啤酒 ， 面 包 | 一 | 牛奶 | 


图 7-1 项 集 和 关联 规则 
可 能 的 关联 还 有 很 多 ,而 我 们 感 兴趣 的 是 找 出 强 关 联 。 为 此 ， 我 们 需要 一 些 度量 。 这 些 
度量 将 在 7.2. 1 节 讨 论 。 


支持 度 和 置信 度 
除 前 件 (“if” 部 分 ) 和 后 件 (“then” 部 分 ) 外， 每 个 关联 规则 还 有 两 个 数 ， 表 达 规 则 的 不 确 
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定 程度 。 在 关联 分 析 中 ， 前 件 和 后 件 都 是 不 相交 的 (不 含 公共 项 ) 项 的 集合 ( 称 作 项 集 ) 。 第 
一 个 数 称 为 规则 的 支持 度 (support)。 支 持 度 是 包含 规则 前 件 和 后 件 中 所 有 项 的 事务 个 数 。 
(有 了 时， 文 持 度 用 这 些 事务 占 数据 库 中 全 部 记录 的 百分比 表示 。) 

万 一 个 数 称 为 规则 的 置信 度 (confidence) s。 置信 和 度 是 包含 前 件 和 后 件 中 所 有 项 的 事务 ( 即 
文 持 度 ) 与 包含 前 件 中 所 有 项 的 事务 的 比 。 为 了 更 具体 地 解释 ， 我 们 考虑 图 7-1 中 的 数据 集 。 

假设 o 表示 项 集 出 现 的 支持 度 计数 或 频 度 。 

HG, o( {和 牛奶,“ 面包， 尿布 | ) =2 

设 s 表示 包含 一 个 项 集 的 事务 所 占 的 比例 。 


例子 : s (| 牛奶， 面包, 尿布 |) = 275 = QC 牛奶， 面包 , RED er) ae 


(P 

总 数 。 

关联 规则 是 一 个 形 如 X= 了 的 蕴涵 表达 式 ， X 和 YY 都 是 项 集 。 

例子 :| 牛奶， 尿布 | 一 | 啤酒 

现在 ， 我 们 定义 规则 的 支持 度 和 置信 度 ( 规则 的 评估 度量 ) 。 

SASF) = 包含 XY 和 了 的 事务 所 占 的 比例 

:( | 牛奶 ， 尿 布 |=>| 啤酒 |) =O AB HE) 

设 。 表 示 度 量 “Y 中 的 项 在 包含 的 事务 中 出 现 的 频繁 性 ”。 | 

例子 ; (| 牛奶 ， 尿 布 | >>| 啤 酒 | ) = TL RAE I 9/3 =0.67 

可 能 由 项 集 | 牛奶， 尿布 ， 啤 酒 | 产生 的 一 些 规则 如 下 

| 牛奶， 尿布 | 一 | 啤酒 (> =0.4，c =0.67) 

| 牛奶， 啤酒 | 地 | 尿布 | (s =0.4，c=1.0) 

| 尿布 ， 啤 酒 | 一 1 牛奶 | (> =0.4，c =0.67) 

| 啤酒 | 二 | 和 牛奶， 尿布 | (s =0.4, c=0.67) 

| 尿布 | 二 | 牛奶 ， 啤 酒 | (s =0.4，c =0.5) 

[牛奶 | 过 | 尿布 ， 啤 酒 ] (s =0.4, ¢=0.5) 

由 给 定 项 集 产生 的 所 有 规则 都 具有 相同 的 支持 度 ， 但 是 置信 度 一 般 不 同 。 

注意 : 置信 度 概念 不 同 于 (也 无 关于 ) 统计 推断 中 的 置信 区 间 和 置信 水 平 。 一 种 方法 是 
把 支持 度 看 作 从 数据 库 中 随机 选择 的 事务 将 包含 规则 前 件 和 后 件 中 所 有 项 的 概率 ， 而 置信 度 
是 给 定 随机 选择 的 事务 包含 规则 前 件 中 的 所 有 项 ， 该 随机 选择 的 事务 包含 后 件 中 所 有 项 的 条 
件 概率 。 

为 了 理解 算法 的 复杂 性 和 给 定 项 集 可 能 产生 的 规则 的 数目 ， 考 虑 项 集 14，B，C，D 
E} 。 图 7-2 中 存在 25 =32 个 节点 ， 并 且 每 个 节点 元 素 (项 集 ) 都 是 一 个 产生 规则 的 可 能 的 候 
选项 集 。[1] 证 明 对 于 了 个 项 ， 我 们 可 以 产生 丸 个 规则 ， 其 中 及 由 下 式 计算 ， 


y [ex a Sele dia ae 
如 果 d=6， 我 们 可 以 形成 602 个 规则 。 
现在 ,我 们 用 一 个 规模 较 大 的 例子 来 认识 该 问题 的 复杂 性 ， 并 深入 讨论 下 一 节 的 算法 。 
例 7.1 电子 产品 销售 | 
All Electronics 零售 店 的 经 理想 知道 哪些 商品 一 起 销售 。 他 有 一 个 如 表 7-1 所 示 的 数据 库 。 
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图 7-2 从 给 定 项 集 产生 规则 的 候选 项 集 


表 7-1 事务 数据 


商品 代码 


事务 ID 


OS Sie AA Oo = ea N 


= AN AN = SF A TS 一 一 


wl AN Sh) Me .00 GN 


项 


He 


曲 代 码 。 事 务 1 是 同时 购买 商品 1、 


等 等 。 假 设 我 们 想得到 该 数据 库 中 文 持 度 计 数 至 少 为 
则 。 通 过 枚 举 ， 我 们 可 以 看 出 只 有 下 面 一 


ie 

2 

EK ox ! 
g o 
ne 
ns = 
fa, TES 
CEng 
w KA 
5 aK 其 
REE 
ap 说 
¢ BR 
> RS 
iw 

m ib ih 
H gS 
z SP 
ae 


集 的 支持 度 计数 至 少 为 2: 


KEANE 123 


(1) RREAN 6 
{2} RREA 7 
131 文 持 度 计数 为 6 
i141 支持 度 计 数 为 2 
1S | 支持 度 计数 为 2 
(1, 2} REHA 4 


11, 3} 支持 度 计 数 为 4 

11, 5) 支持 度 计数 为 2 

{2, 3} 支持 度 计数 为 4 

(2, 4) 支持 度 计数 为 2 

12，5} 文 持 度 计数 为 2 

[1,12,，3| 支持 度 计数 为 2 

11, 2, S} SCRE 2 

注意 ,一 旦 我 们 得 到 具有 所 要 求 的 支持 度 的 所 有 项 集 的 列表 ， 我 们 就 可 以 通过 考察 列表 
中 每 个 项 集 的 所 有 子 集 ， 归 纳 出 满足 期 望 置信 度 的 规则 。 由 于 集合 的 任何 子 集 的 出 现 频率 至 
少 与 该 集合 一 样 ， 因 此 每 个 子 集 也 在 该 列表 中 。 这 样 ， 可 以 直接 根据 项 集 的 支持 度 (计数 ) 
和 该 项 集 的 每 个 子 集 的 支持 度 (计数 ) 之 比 计算 规则 的 置信 和 度 。 仅 当 置 信和 度 超 过 期 望 的 置信 
度 阔 值 ， 我 们 才 保 留 相 应 的 关联 规则 。 例 如 ， 根 据 项 集 11，2， 5+} 我 们 得 到 如 下 关联 
规则 : 

{1, 2} 寺 15} 其 置信 和 度 = {1,2,51} 的 支持 计数 除 以 {1，21 的 支持 计数 =2/4 =50% 

11, S}>i2J RERE = (1, 2, 5 的 支持 计数 除 以 {15 的 支持 计数 =2/2=100% 

12, 5> |1 HERE = {1，2，51 的 支持 计数 除 以 {2，51 的 支持 计数 =2/2 = 100% 

111 寺 12，51} 其 置信 和 度 = {1,,2, 51 的 支持 计数 除 以 {1} 的 支持 计数 =2/6 =33% 

(2}={1, 5, RERE = {1, 2, .外 的 支持 计数 除 以 {21 的 支持 计数 =2/7 =29% 

151 寺 11，21 其 置信 和 度 =11, 2，51 的 支持 计数 除 以 {51 的 支持 计数 =2/2 =100% 

如 果 期 望 的 置信 度 阔 值 为 70% ， 则 我 们 只 报告 第 二 、 第 三 和 最 后 一 个 规则 。 我 们 可 以 
看 出 ， 产 生 满足 预定 支持 度 和 置信 度 的 所 有 关联 规则 问题 可 以 分 为 两 步 。 第 一 步 找 出 满足 文 
持 度 要 求 的 所 有 项 集 ( 这 些 项 集 称 作 频繁 项 集 或 大 项 集 ); 然后 ， 根 据 每 个 选 出 的 项 集 产 生 
满足 置信 度 要 求 的 关联 规则 。 对 于 大 部 分 关联 分 析 数 据 ， 计 算 的 困难 在 于 第 一 步 。 


7.3 Apriori 算法 


尽管 已 经 提出 一 些 产 生 关联 规则 的 算法 , 但 是 最 经 典 的 算法 是 Agrawal 和 Srikant 的 
Apriori( 先 验 ) 算 法 (1993)[1]。 该 算法 的 基本 思想 是 从 只 包含 一 个 项 的 频繁 项 集 (1- 项 集 ) 开 
始 ， 递 归 地 产生 具有 两 个 项 的 频繁 项 集 ， 然 后 产生 具有 3 个 项 的 频繁 项 集 ， 如 此 下 去 ， 再 到 
产生 所 有 的 频繁 项 集 。 不 失 一 般 性 ， 我 们 用 唯一 、 相 继 的 ( 正 ) 整 数 表示 项 ， 并 且 每 个 项 集 
中 的 项 以 这 种 项 编号 的 递增 序 排列 。 

7. 2 节 讨 论 的 例子 解释 了 这 种 记号 。 在 计算 中 谈 及 一 个 项 时 ， 我 们 实际 是 指 这 种 项 
编号 。 

产生 频繁 1- 项 集 比 较 容 易 。 我 们 需要 做 的 是 对 每 个 项 计数 ， 看 数据 库 中 有 多 少 个 事务 
包含 该 项 。 这 些 事务 计数 是 1- 项 集 的 支持 度 。 丢 弃 那 些 支持 度 低 于 期 望 冰 值 的 1- 项 集 ， 得 
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到 频繁 1- TAR, Hk =2,.3, =, 产生 过 程 按 如 下 方法 由 频繁 (k -1)- 项 集 得 到 频 
莹 -项 集 。 在 频繁 (1)- 项 集 列表 上 进行 (k -1 )- 项 集 对 的 连接 运算 ， 创建 大 项 集 候选 列 
表 。 一 对 ( -1)- 项 集 被 组 合 在 一 起 ， 仅 当 两 个 项 集 的 前 (上 -2) 项 相同 。 (Sk=2h, x 
味 组 合 所 有 可 能 的 1- 项 集 对 。) 如 果 条 件 满足 ， 则 该 对 的 连接 是 一 个 大 项 集 ， 它 包含 前 
(kk 一 2) 个 公共 项 和 两 个 非 公共 项 ， 每 个 非 公共 项 来 自 该 对 的 一 个 成 员 。 所 有 的 频繁 有 -项 集 
一 定 痢 在 这 个 候选 列表 中 ， 因 为 频繁 -项 集 的 每 个 大 小 为 (£1) 的 子 集 都 必须 是 频繁 -1 项 
集 。 然 而 ， 该 候选 列表 中 的 某 些 -项 集 可 能 不 是 频繁 -项 集 。 我 们 需要 删除 这 些 候选 项 集 ， 
创建 频繁 -项 集 列表 。 为 了 识别 非 频 繁 的 -项 集 ， 我 们 考察 每 个 候选 -项 集 的 所 有 大 小 为 
\ -1) 的 子 集 。 注 意 ， 我 们 只 需要 考察 至 少 包 含 该 候选 及 项 集中 两 个 项 的 (k -1)- 项 集 。 
(为 什么 ?) 如 果 这 些 大 小 为 (& -1) 的 子 集 中 的 某 一 个 不 在 频繁 (k -1 ) 项 集 列表 中 ， 则 该 候选 
k- 项 集 不 可 能 是 频繁 项 集 。 i 

我 们 从 候选 列表 中 删除 这 样 的 -项 集 。 以 这 种 方式 处 理 候 选项 集 列表 中 的 每 个 项 集 ， 
确保 扫描 结束 时 候选 -项 集 列表 被 剪裁 。 然 后 扫描 数据 库 ， 确 定 频繁 ME, Sk, 
地 重复 这 一 过 程 ， 当 候选 列表 为 空 时 停止 。 该 算法 有 效 性 的 关键 点 是 候选 和 频繁 项 集 列 表 的 
数据 结构 。 算 法 的 最 初版 本 使 用 散 列 树 ， 但 是 后 来 提出 了 一 些 改进 这 种 结构 的 提议 。 还 有 
些 其 他 算法 ， 在 实践 中 运行 速度 比 Apriori 算法 快 ， 从 非 技 术 的 意义 来 讲 ， 什 么 是 “置信 和 度 ”? 
如 何 保 证 我 们 得 到 的 规则 是 有 意义 的 ? 从 统计 学 的 角度 考虑 这 一 问题 ， 我 们 能 够 回答 “我 们 
发 现 的 关联 规则 实际 上 只 是 偶然 出 现 的 吗 ?” 

使 用 Apriori 算法 的 例子 

考虑 表 7-2 所 示 的 事务 数据 库 。 


表 7-2 事务 数据 库 
顾 客 ， 商 品 
Cl 牛奶 ， 鸡 蛋 ， Hit, Bee 
C2 | 鸡蛋 ， 爆 米花 ， 暮 片 ， 啤 酒 
C3 WE, HE, #¥H 
C4 EU, SE, WME, BKE, SH, 
CS 牛奶 ,面包 ， 啤 酒 
C6 鸡蛋 ， 面 包 ， 啤 酒 
C7 “Ws, ma, BA 
C8 | 牛奶 ， 鸡 蛋 ， 面 包 ， Beh, BER 
C9 牛奶 ; 鸡蛋， 黄油 ， 薯 片 


。 自 先 ， 我 们 识别 哪些 商品 频繁 地 一 起 购买 (这 些 称 为 频繁 项 集 ) 。 

o 然后 ， 我 们 从 频繁 项 集 推导 出 强 规则 。 

© 假定 最 小 支持 度 (min_sup)s =30% (或 至 少 在 3 个 事务 中 ) 。 

* 自 完 ， 我们 扫描 数据 库 ， 识 别 所 有 单个 项 (1- 项 集 ) 和 它们 的 支持 度 。 它 们 称 作 候选 
1- 项 集 ， 记 作 Cl( 见 表 7-3)。 

* 然后 ， 我 们 选择 其 支持 度 大 于 或 等 于 min_sup 的 项 。 这 些 被 称 为 频繁 1- 项 集 ， 并 记 作 
LAMUR 7-4) « 
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表 7-3 候选 1- 项 集 C 表 7-4 MERR L MLE 
支持 度 计数 支持 度 计 数 





我 们 识别 了 所 有 的 频 楷 1- 项 集 。 

es。 下 一 步 ， 我 们 需要 做 类 似 的 工作 ， 识 别 所 有 的 频繁 2- 项 集 。 

e 首先 ， 我 们 产生 所 有 可 能 频繁 的 2- 项 集 。 它 们 称 作 候选 2- 项 集 或 Ci( 见 表 7- 5) o 

o CF] REA L, 产生 所 有 可 能 的 2 项 集 来 实现 (注意 ， 我 们 不 需要 考虑 非 频 楷 的 1- 
项 集 ) 。 

e 扫描 数据 库 ， 确 定 C 中 每 个 项 集 的 支持 度 。2 结果 显示 在 表 7-6 中 6 


7-5 ”候选 2- 项 集 C, 表 7-6” 候 选 2- 项 集 C; 和 它们 的 支持 度 


项 集 






| 牛奶 ， 鸡 蛋 | 4 
| 牛奶 ， 面 包 | oE, me 5 
LÆ, BER DEI, SN. 5 
| 牛奶 ， 啤 酒 | | 牛奶， 啤酒 2 
| 鸡蛋， 面包 | | 鸡蛋， 面包 | 5 
| 鸡蛋 ， 暮 片 | | 鸡蛋， SHI 6 
| 鸡蛋 ,啤酒 | [鸡蛋 ,啤酒 | 3 
| 面包 ; | oe EM SE 5 
面包， 啤酒 | | 面包， 啤酒 | 3 
| 莫 片 ， 啤 酒 | | 薯 片 ， 啤 酒 | 2 


o 我 们 从 C, 中 选择 那些 满足 min_sup 的 项 集 。 得 到 的 表 L 如 表 7-7 所 示 。 
o 重复 以 上 过 程 ;直到 不 再 有 候选 (或 频繁 ) 项 集 为 止 。 
e 这 样 ， 该 过 程 形 如 Ci 一 Li 一 Cs 一 Dy 一 Cs 一 Dy 一 
o 在 继续 进行 之 前 ， 我 们 先 考虑 一 种 称 为 Apriori 性 质 的 重要 性 质 。 
e Apriori 性 质 : 一 个 项 集 是 频繁 的 ， 则 它 的 所 有 非 空子 集 都 必须 是 频繁 的 。 换 句 话 说 ， 
如 果 一 个 项 集 不 是 频繁 的 ， 则 它 的 所 有 超 集 都 不 可 能 是 频 烷 的 。 
o 在 下 面 的 处 理 过 程 中 ， Me 
o M L, TA C.: 
: 连接 两 个 频繁 2- 项 集 ML (或 对 它们 取 并 ) ， 产生 一 个 候选 3 项 集 ( 见 表 7-8) 。 
MEI, 的 第 一 个 项 与 2 的 第 一 个 项 相同 时 ， 我 们 才 连 接 它们 。 这 里 ， 我 们 假定 项 
集中 的 项 已 经 按 某 种 顺序 排序 ， 通 常 按 字母 序 排序 。( 注意， 在 我 们 使 用 的 例子 
中 ， 项 并 未 按 字母 序 排序 。 但是， 在 所 有 项 集中 ,项 的 次 序 是 一 致 的 。) 
. 例如 ， 我 们 连接 | 牛奶， 鸡蛋 | 和 }{ 牛奶， 面包} ， 产 生 { 牛奶， 鸡蛋 ， 面 包 } ,但 是 
并 不 连接 | 牛奶， 鸡蛋 | 和 | a, BH}. 
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表 7-7 具有 要 求 的 最 小 支持 度 的 频繁 2- 项 集 L， 表 7-8 候选 3- 项 集 C, 
支持 度 计数 项 集 
{牛奶 ， 鸡 和 蛋 ， 面 包 | 
[| 牛奶， 鸡蛋 ， 暮 片 
牛奶， 面包 ， 警 片 } 
DSE, ME, WH) 
DSE, mE, m) 
SE, WH, m) 
| 面包 ， 薯 片 ， 啤 酒 } 





+ 确定 支持 度 。 

` 我 们 需要 扫描 数据 库 来 确定 支持 度 。 

“ 如 果 1C; | 很 大 ,确定 支持 度 需 要 花费 很 多 时 间 。 

因此， 我们 需要 删除 C 中 不 可 能 用 于 产生 L 的 项 集 。 

. 这 一 过 程 称 作 剪 枝 过 程 。 

+ 如 采 候 选 3- 项 集 了 上 至少 有 一 个 2- 项 集 子 集 不 是 频繁 的 ， 则 我 们 可 以 从 C 中 删除 元 
(为 什么 9 

在 上 面 的 C3 中 ， 可 以 将 { 鸡 蛋 ， 暮 片 ， 啤 酒 } AC, PWR, HX BER, mR) 
是 频繁 的 (不 在 L, 中 )。|( 面 包 ， 慕 片 ， 啤 酒 | 也 不 是 频繁 的 。( 验证 其 他 候选 项 集 
都 不 包含 非 频 繁 的 2- 项 集 子 集 ,) 

. 勇 校 后 ， 扫 描 数 据 库 ， 确 定 支持 度 。 结 果 显 示 在 表 7-9 中 。 

e 由 C, 确定 Lo We7-10, 


表 7-9 剪 枝 后 的 候选 3- 项 集 Cs 表 7-10 具有 要 求 的 支持 度 的 频繁 3- 项 集 L, 
支持 度 计数 





支持 度 计 数 







| 牛奶， 鸡蛋 ,面包 | 
[| 牛奶， 鸡蛋 ， 薯 片 | 
(40, Hil, BH} 
DSE, Hf, BH | 





。 由 L, 计算 CARER 7-11 FH), | 
”一 同样， 在 连接 两 个 频繁 3- 项 集 时 ， 我 们 首先 检查 它们 的 前 两 个 项 是 否 相同 。 仅 当 
它们 的 前 两 个 项 相同 时 才 连 接 它们 。 
。 由 于 1 牛奶， 鸡蛋 ， 面 包 ， 暮 片 | 的 所 有 3- 项 集 子 集 都 在 L 中 ， 因 此 我 们 保留 它 。 
。 扫 描 数据 库 并 确定 支持 度 。 结 果 在 表 7-12 中 。 


表 7-11 候选 4- 项 集 C， 表 7-12 ”候选 4- 项 集 C 和 它 的 支持 度 
HR 项 集 支持 度 计数 
(FI, WE, E, FH) (FH), E, if, H] 3 


d 由 C, 确定 L, ( 见 表 7-13 ) 。 
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R713 具有 要 求 的 支持 度 的 频繁 4- 项 集 L 


项 集 支持 度 计数 


{牛奶 , WSS, BE, BA} 3 


en Ci=¢ , aF, MAMBA L=L,UL,UL,VL,. 
o 推导 强 规则 


N 


> 


PRR REE 


5 6 


SE, BA} >i 面包 | 
: HE, BA} 1 鸡蛋 | 


- 考虑 频繁 3-H, Mw, BAI. 

“ 由 于 这 3 种 商品 频繁 地 一 起 购买 ， 我 们 可 能 能 够 从 这 个 3- 项 集 推导 出 一 些 规 则 。 
首先 ， 我 们 得 到 非 空 真子 集 : (WO, (et, EHK (WBE, mE, (BE, 
ee}, (ma, BHI. 
“ 然后 ， 对 于 每 个 子 集 ， 我 们 形成 如 下 规则 : 
: DBE => ME, Ba} 
: { 面包 | 一 | 鸡蛋 ， 暮 片 | 
: (EH > WE, he} 
: {| 鸡蛋， 面包 | 一 | BA} 


re PLU rR A | ASA, TAL, | —— SZC BAS Bl 


PP PR 


wa 


ae 


‘ 如 果 min_ conf 为 80% , 
- 如果 min_ conf 为 60% , 


:鸡蛋 | >i Hi, BH, 


: 1 面包 | > Se, BAI, 
: (BR SUS, Hw}, 
: (Se, ME i Al, 


,| 面包 ， | => | 39} 


- 这 一 过 程 可 以 概括 如 下 ， 
对 于 每 个 频繁 项 集 ( 频 党 1- 项 集 除 外 )1I， 找 出 1 的 所 有 非 空 真子 集 。 


` 对 于 的 每 个 子 集 s， 
e 对 于 每 个 规则 


' 为 了 确定 强 规则 ， 我 们 计算 置信 度 : 


4/7 È 57. 1% 
4/7 或 57. 1% 
4/7 或 57. 1% 
4/5 或 80% 
, 4/6 ak 66. 7% 
4/5 IÈ 80% 


则 选取 R 和 Rs 为 强 规则 。 
则 R, 也 是 强 规则 。 


形成 一 个 规则 sal -s.o 
R， 计 算 它 的 置信 度 conf(R) =sup(/)/sup(s). 


.如果 conf(R) >min_conf, WER R 为 强 规则 。 


7.4 缺点 


在 实践 中 ， 关 联 规 则 可 能 并 不 像 人 们 期 望 的 那么 有 用 。 一 个 主要 缺点 是 文 持 度 置 信和 度 框 
架 常 第 产生 过 多 的 规则 。 为 一 个 缺点 是 其 中 大 部 分 规则 是 显而易见 的 。 诸 如 “星期 五 晚上 尿 
布 和 啤酒 一 起 购买 ”的 著名 故事 并 不 像 期 望 的 那样 普遍 。 关 联 分 析 需 要 技巧 ,并 且 正 如 一 些 
研究 者 主张 的 那样 ， 用 更 严格 的 统计 学 知识 处 理 规则 增殖 将 是 有 益 的 。 


习题 


1. 考虑 如 下 频 索 3- 项 集 的 集合 : 
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No 


U 


= 


(1, 2, 3}, 11, 2, 4) 55 HP SAS ote, BWR, (2; 3, 5}, 13, 4, 6} 
假定 数据 集中 只 有 6 个 项 。 

1 ) 列 出 由 Apriori 的 候选 产生 过 程 得 到 的 所 有 候选 4- 项 集 。 

2) 列 出 Apriori 算法 的 候选 筋 枝 步骤 之 后 剩 下 的 所 有 候选 4- 项 集 。 


. Apriori 算法 使 用 “产生 -计数 ”策略 导出 频繁 项 表 7-14 ”购物 篮 事 务 的 例子 


集 。 大 小 为 k+1 的 候选 项 集 通过 连接 一 对 大 小 
为 上 的 频繁 项 集 而 构造 的 ( 称 为 候选 产生 步骤 )。 
例如 ， 候 选 1P，Q，R| 通 过 合并 频繁 项 集 | P, 
Q1 和 |P，R| 产生 。 如 果 发 现 一 个 候选 的 某 个 子 
集 不 是 频繁 的 ， 则 该 候选 被 前 枝 。 例 如 ， 如 果 
10, RI 是非 频繁 的 ， 则 候选 |1P，0，R1 被 前 
枝 。( 这 种 剪 枝 在 候选 剪 枝 步 又 进行 。) 
假设 对 表 7-14 所 示 的 数据 集 实用 Apriori 算法 。 
假定 最 小 支持 度 靖 值 等 于 30% ， 即 在 少 于 3 个 
事务 中 出 现 的 任何 项 集 都 被 视 为 非 频 繁 的 。 
1 ) 绘制 表示 可 能 由 表 7-14 产生 的 所 有 可 能 项 集 的 格 结构 。 
在 得 到 的 图 中 ， 使 用 如 下 字母 标记 每 个 节点 : 
oN: 如 果 项 集 不 被 Apriori 算法 看 作 候 选项 集 。 一 个 项 集 不 被 看 作 候 选项 集 有 两 种 原因 . 
@ 在 候选 产生 步 又 未 被 产生 。 
@ 在 候选 产生 步 又 被 产生 ， 但 是 因为 发 现 它 的 一 个 子 集 是 非 频繁 的 而 在 其 后 的 候选 剪 枝 
步骤 被 删除 。 
oF: 如 果 候 选项 集 被 Apriori 算法 发 现 是 频繁 的 。 
e J: 如 果 候 选项 集 在 支持 度 计数 后 被 发 现 是 非 频繁 的 。 
2 ) 被 Apriori 算法 找到 的 频繁 项 集 ( 相对 于 格 中 所 有 项 集 ) 所 占 的 百分比 是 多 少 ? 
3) Apriori 算法 在 该 数据 集 上 的 剪 枝 率 是 多 少 ?( 前 枝 率 de_ned 定义 为 被 认为 不 是 候选 的 
项 集 所 占 的 百分比 ， 因 为 在 候选 产生 时 不 产生 它们 ， 或 者 在 候选 前 枝 步 被 剪裁 。) 
4) 假 报警 率 ( 即 进行 支持 度 计 数 之 后 ， 被 发 现 是 非 频 繁 的 候选 项 集 所 占 的 百分比 ) 是 多 少 ? 
给 定 图 7-2 所 示 的 格 结构 和 表 7-14 中 的 事务 ， 用 如 下 字母 标记 每 个 节点 : 
eM: 如 果 它 是 极 大 频繁 项 集 ” 。 
°C: 如 果 它 是 频繁 闭 项 集 2 。 
oN; 如 果 它 是 频繁 的 ， 但 既 不 是 极 大 的 ， 也 不 是 闭 的 。 
°]; 如 果 它 是 非 频繁 的 。 
假定 最 小 支持 度 靖 值 等 于 30% 。 
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考虑 兴趣 度量 
_P(B|A) -P(B) 
stain: SR E) 

对 于 关联 规则 ASB, 


1) 该 度量 的 值 域 是 什么 ? 何 时 该 度量 达到 它 的 最 大 值 和 最 小 值 ? 


曲 ” 极 大 频繁 项 集 是 频繁 项 集 ， 并 且 它 的 任何 超 集 ( 包含 它 的 项 集 ) 都 不 是 频繁 的 。 一 一 译 者 注 


O 频繁 财 项 集 是 频繁 项 集 ， 并 且 它 的 任何 超 集 的 支持 度 都 不 等 于 它 的 支持 度 ; 一 一 译 者 注 
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2) P(A, B) 增 加 ,而 P(4) 和 P(B) 不 变 时 ，m 如 何 变化 ? 
3) 当 P(4) 增 加 ,而 P(4，B) 和 P(B) 不 变 时 ，m 如 何 变化 ? 
4) 当 P(B) 增 加 ,而 P(4，B) 和 P(4) 不 变 时 ，m 如 何 变 化 ? 
5 ) 该 度量 在 变量 交换 下 是 否 对 称 ? 
6) 当 4 和 B 统 计 独 立时 ,该 度量 的 值 是 什么 ? 
7) 在 行 或 列 按 比 例 缩放 运算 下 ， 该 度量 是 否 保 持 不 变 ? 
8 ) 在 反 演 运算 下， 该 度量 是 否 保 持 不 变 ? 
5. 给 定 表 7-15 中 的 医疗 数据 库 ， 其 中 包含 婴儿 和 成 人 狸 死 (5D) 案例。 分 析 小 儿 麻 痹 疫苗 
(PV) 注 射 是 否 对 独 死 有 影响 。 
表 7-15 假想 的 医疗 数据 库 


婴儿 成 人 PV SD 支持 度 计 数 

1 0 1 1 26 

1 0 1 0 24 

1 0 0 1 49 

1 0 0 0 1 

0 1 1 1 20 

0 1 1 0 130 

0 | 0 l 240 

0 1 0 


© 
Nn 
— 
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1) 计算 规则 PY->5D 的 支持 度 、 置 信 度 和 兴趣 度 。 

2) 直观 地 ， 你 认为 规则 PV>SD 表明 了 什么 ?这 与 上 一 个 问题 的 结果 一 致 吗 ? 
3 ) 分 别 对 婴儿 和 成 人 计算 规则 PV SD 的 支持 度 、 置 信和 度 和 兴趣 度 。 

4) 你 能 够 从 上 一 个 问题 的 结果 得 到 什么 有 趣 的 结论 ? 
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第 8 章 用 开源 和 商业 软件 进行 机 器 学 习 


8.1 用 Weka 进行 机 器 学 习 


Wekal 1 ] 是 一 个 功能 全 面 的 机 器 学 习 和 数据 挖掘 应 用 程序 平台 。Weka 是 新 西 兰 怀 卡 托 
(Waikato) 大 学 开发 的 。“Weka” 表 示 Waikato Environment for Knowledge Analysis( 知识 分 析 怀 
卡 托 环境 ) 。( Weka( 新西兰 黑 秧 鸡 ) 也 是 一 种 具有 好 奇 天 性 的 不 会 飞 的 鸟 ， 只 能 在 新 西 兰 的 
岛屿 上 看 到 。) Weka 用 Java 编程 ， 并 在 所 有 操作 系统 下 广泛 测试 。 

在 本 章 中 ， 我 们 的 目标 是 向 读者 介绍 图 形 用 户 界 面 下 的 Weka 的 使 用 方法 。 这 些 内 容 基 
F Weka 3-4-3。 由 于 Weka 的 类 层次 结构 进行 了 重组 ， 例 子 ( 在 下 次 重组 前 ) 只 能 用 版 本 3-4- 
3 运行 。 基 本 概念 和 问题 可 以 转换 到 早期 的 版 本 上 ， 但 是 具体 的 例子 需要 稍 加 改写 。 尽 管 对 
于 最 初 的 实验 图 形 用 户 界 面 足够 了 ， 但 是 对 于 深层 使 用 ， 建 议 使 用 命令 行 界面 ， 因 为 它 提 供 
了 一 些 通过 图 形 用 户 界面 无 法 使 用 的 功能 ， 并 且 使 用 更 少 的 内 存 。 

Weka 提供 了 优秀 的 学 习 算 法 ， 可 以 用 于 数据 集中 。 它 还 包括 各 种 数据 集 变换 工具 ， 如 
离散 化 算法 。 我 们 可 以 对 数据 集 进 行 预 处 理 ， 将 它 提供 给 学 习 系 统 ， 并 且 分 析 结 果 分 类 器 和 
它 的 性 能 。 在 前 面 几 章 中 ， 我 们 已 经 从 理论 上 学 习 了 算法 。 现 在 将 使 用 这 些 算法 并 做 一 些 机 
ard LYE. 

假设 我 们 有 一 些 数据 ， 并 且 想 用 它 建 立 决 策 树 。 数 据 通常 存储 在 电子 数据 表 或 数据 库 
中 。 然 而 ，Weka 期 望 它 是 ARFF 格式 ， 因 为 掌握 每 个 属性 的 类 型 信息 是 必要 的 ， 而 这 种 信 
县 不 能 目 动 地 从 属性 值 中 推断 出 来 。ARFF ( Attribute- Relation File Format, 属性 关系 文件 格 
式 ) 文 件 是 一 种 ASCI 文本 文件 ， 描 述 一 个 共享 属性 集 的 实例 的 列表 。ARFF 文件 是 为 Weka 
机 个 学 习 软 件 开发 的 。 因 此 ， 在 你 将 任何 算法 用 于 数据 之 前 ， 必 须 将 数据 转换 成 ARFF 格 
式 。 这 可 以 很 容易 做 到 。ARFT 文件 的 主要 部 分 由 所 有 实例 的 列表 组 成 ， 每 个 实例 的 属性 值 
用 逗号 分 隔 。 大 部 分 电子 数据 表 和 数据 库 程序 都 支持 将 数据 作为 记录 的 列表 输出 到 逗号 分 隔 
格式 的 文件 中 ， 其 中 项 用 逗号 分 开 。 一 旦 完成 这 项 工作 ， 只 需要 将 该 文件 装 人 文本 编辑 器 或 
字 处 理 器 ; 使 用 @relation tag 加 上 数据 集 的 名 字 ， 使 用 @attribute 加 上 属性 信息 ， 再 加 上 一 个 
@data 行 ; 将 该 文件 作为 原始 文本 文件 保存 ， 就 完成 了 转换 ! 

现在 ， 让 我 们 通过 一 些 例 子 执行 Weka 的 一 些 数据 预 处 理 和 挖掘 操作 。Weka 软件 可 在 
本 书 附带 的 光盘 上 找到 。 安 装 Weka 相当 容易 。 这 个 例子 使 用 的 样本 数据 集 是 银行 数据 ， 数 
据 采用 逗号 分 隔 格 式 (bank- data. csv) ， 在 本 书 附带 的 光盘 上 可 以 找到 。 光 盘 上 还 有 其 他 一 些 
标准 数据 集 。 建 议 读 者 使 用 这 些 数据 集 进 行 学 习 。 

由 于 有 些 人 很 难 克 服 使 用 这 种 软件 的 最 初 的 惯性 ， 我 们 在 随 书 光盘 上 包括 了 一 些 动 画 ， 
介绍 如 何 对 数据 集 bank- data. csv 进行 预 处 理 、 离 散 化 、 关 联 规 则 挖掘 、 分 类 和 聚 类 。 


8.1.1 开始 


我 们 的 数据 (bank- data. csv) [2] 以 逗号 分 隔 格 式 存放 。 但 是 在 大 多 数 情 况 下 ， 数 据 存放 在 
微软 的 Excel 电子 数据 表 中 ， 我 们 把 这 些 数据 以 逗号 分 隔 的 格式 存放 。 打 开 Excel 文件 ， 首先 
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13] 


从 File( “30” ) 下 拉 菜 单 选择 Save AS(“ 另 存 为 ") 。 然 后 ， 在 确认 对 话 框 选择 CSV， 并 保存 该 


文件 。 图 8-1 以 Excel 格式 显示 我 们 的 实例 数据 集 。 
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图 8-1. 
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图 8-2 将 xls 格式 转换 成 csv 格式 
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图 8-2 显示 如 何 将 xls 格式 转换 成 csv 格式 。 
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id, age, sex, region, income, married, children, car, save_act, current act, mortgage 
ID12101, 48, FEMALE, INNER CITY, 17546.0,NO,1,NO,NO,NO,NO, YES 
ID12102, 40, MALE, TOWN, 30085.1, YES,3, YES,NO, YES, YES,NO 
1D12103,51, FEMALE, INNER CITY, 16575.4, YES,0, YES, YES, YES, NO, NO 
1D12104,23, FEMALE, TOWN, 20375.4,YES,3,NO,NO; YES,NO,NO 
ID12105, 57, FEMALE, RURAL, 50576.3, YES, 0, NO, YES,NO,NO, NO 
1D12106,57, FEMALE, TOWN, 37869.6, YES,2,NO, YES, YES,NO, YES 
[Di2107, 22, MALE, RURAL, 8877.07,NO,0,NO,NO, YES, NO, YES 

ID12108, 58, MALE, TOWN, 24946.6, YES,0, YES, YES, YES,NO,NO 
ID12109, 37, FEMALE, SUBURBAN, 25304.3, YES, 2, YES,NO,NO,NO,NO 
ID12110, 54, MALE, TOWN, 24212.1, YES,2, YES, YES, YES,NO, NO 
IDiz111, 66, FEMALE, TOWN, 59803 .9, YES,0,NO, YES, YES,NO,NO 
ID12112, 52, FEMALE, INNER CITY,26656.8,NO,0, YES, YES, YES, YES, NO 
1D12113,44, FEMALE, TOWN, 15735.8, YES, 1,NO, YES, YES, YES, YES 


图 8-3 在 文本 编辑 器 中 打开 的 csv 文件 


pep 


8.1.2 ABOE 


除了 ARFF 数据 文件 格式 之 外 ，Weka 具有 读 入 “. csv” 格式 文件 的 能 力 。 正 如 可 以 在 样 
本 数据 文件 中 看 到 的 ， 第 一 行 包含 属 性 名 (用 逗号 隔 开 )， 后 面 是 每 个 数据 行 ， 属 性 值 以 相 
辣 的 次 序列 出 (也 用 逗号 隔 开 ) EXE, 一旦 装 人 Weka, 数据 集 就 可 以 保存 为 ARFF 格式 。 

在 这 个 例子 中 ， 我 们 将 该 数据 集 装 人 Weka， 使 用 Weka 的 属性 和 离散 化 过 滤 执 行 一 系 
列 操作 ， 然 后 在 结果 数据 集 上 进行 关联 规则 挖掘 。 尽 管 所 有 操作 都 可 以 通过 命令 行 执行 ， 但 
是 我 们 使 用 Weka Knowledge Explorer( 知识 探测 器 ) 的 GUI 界面 。 

假定 Weka 已 经 正确 安装 ， 证 我 们 装 人 人 Weka。 点 击 explorer 命令 框 (参见 图 8-4) 。 


ii 








A mae RK st ee ens 


>java -jar veka. jar 





图 8-4 Weka GUI 的 开始 面板 
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开始 ，( 在 Preprocess tab) 点 击 “ Open” , 并 导航 到 包含 数据 文件 (. csv 或 .arff) 的 目录 。 
这 个 例子 中 ， 我 们 将 打开 bank-data. csv 文件 ， 如 图 8-5 所 示 。 





图 8-5 打开 文件 对 话 框 


> 


ERAS, Weka 将 识别 属性 ， 并 在 数据 扫描 期 间 计算 每 个 属性 的 一 些 基本 统计 量 。 
图 8-6 左边 的 面板 显示 已 识别 出 的 属性 的 列表 ， 而 上 面 的 面板 指出 : 本 关系 ( 表 ) 和 当前 工作 


ge i 


关系 名 (开始 时 ， 它 们 相同 ) 。 Pg ELIN 








图 8-6 显示 属性 和 它们 的 统计 量 的 面板 
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点 击 左边 面板 中 的 任意 属性 将 显示 该 属性 上 的 基本 统计 量 。 对 于 分 类 属性 ， 将 显示 每 个 
属性 值 的 频 度 ， 而 对 于 连续 属性 ， 我 们 可 以 得 到 最 小 值 、 最 大 值 、 均 值 、 标 准 差 等 。 这 显示 
在 图 8-6 Hi 


8.1.3 选择 或 过 滤 属性 


在 我 们 的 样本 数据 文件 中 ， 每 个 记录 由 顾客 id( id 属性 ) 唯 一 地 标识 。 在 数据 挖掘 之 
前 ,我 们 需要 删除 该 属性 。 首 先 标 记 对 应 于 属性 id( 编号 1) 检查 框 。 点 击 左下 方 的 Remove 
命令 按钮 。 这 将 删除 属性 id 和 所 有 实例 的 id 属性 值 。 观 察 包含 关于 关系 名 、 实 例 数 和 属性 
数 的 标记 框 。 删 除 id 属性 后 的 属性 数 变 成 11 ， 它 之 前 的 值 是 12。 与 Weka 的 早期 版 本 相 比 ， 
该 操作 变 得 非常 容易 。 
记 住 ， 我 们 的 数据 仍然 是 csv 格式 。 但 是 我 们 已 经 对 bank-data. csv 中 原来 的 数据 做 了 一 
些 修 改 。 为 了 将 新 的 工作 数据 保存 为 ARFF 文件 ， 点 击 上 方面 板 中 的 save 按钮 。 这 里 ， 正 如 
‘save” 对话 框 所 示 ( 见 图 8-7) ， 我 们 将 把 新 数据 保存 在 文件 “bank- data2. arff” 中 。 





图 8-7 保存 文件 对 话 框 


上 述 过 程 都 属于 对 必须 提供 给 机 器 学 习 算 法 的 数据 进行 预 处 理 。 还 有 许多 预 处 理 选项 可 
以 使 用 。 注 意 ， 可 以 选择 多 个 过 滤器 并 且 同 时 使 用 它们 。 然 而 ， 在 这 人 例子 中 ， 我 们 将 一 步 
步 地 应 用 不 同 的 过 滤 絮 。 现 在 还 可 以 对 新 的 工作 关系 使 用 其 他 过 滤器 。 然 而 ， 在 这 个 例子 
中 ,我们 将 把 中 间 结 有 果 作为 单独 的 数据 文件 保存 ， 并 且 把 每 一 步 作 为 一 次 单独 的 Weka 
会 话 。 

让 我 们 在 文本 编辑 髓 中 打开 保存 的 bank- data2. arff 文件 。 图 8-8 显示 了 新 产生 的 ARFF 
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文件 (在 WordPad F), 注意 ,在 新 数据 集中 ,“id” 属 性 和 记录 中 的 所 有 对 应 值 都 已 经 删除 。 
注意 该 文件 并 观察 第 一 行 @ relation bank- data- weka. filters. unsupervised. attribute. Remove- R1 。 
这 个 语句 简单 地 描述 迄今 为 止 在 数据 集 上 做 过 的 操作 。 属 性 可 以 是 数值 和 标 称 类 型 。 注 意 ， 
属性 car 和 region 是 标 称 属性 。 括 号 中 给 出 了 这 些 属 性 的 可 能 取 值 。age 、income BY salary 这 
些 属 性 是 数值 属性 ， 它 们 可 以 取 实 数值 。 
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@relation bank- ~weka.filters.unsupervised.attribute. Remove-R1 


@attribute age numeric 


Battribute sex (FEMALE, MALE} og 
@attribute region { INNER_CITY, TOWN, RURAL, SUBURBAN) Oe 
@attribute income numeric ie 
@attribute married (NO, YES) dhe 
@attribute children numeric ae 
@attribute car {NO, YES} i 
@attribute save_act (NO, YES) y 
attribute current_act {NO, YES} x 
@attribute mortgage (NO, YES) w 
Battribute pep (YES, NO) g 
2 $ 

Sdata ge 
48, FEMALE, INNER_CITY, 17546, NO, 1, NO, NO, NO, NO, YES A 
40, MALE, TOWN, 30085. 1, YES, 3, YES, NO, YES, YES, NO a 
51, FEMALE, INNER_CITY, 16575. 4, YES, 0, YES, YES, YES, NO, NO Se 
23, FEMALE, TOWN, 20375.4, YES, 3,NO,NO, YES,NO,NO A 
57, FEMALE, RURAL, 50576.3, YES,0,NO, YES, NO, NO, NO tw 
. 57, FEMALE, TOWN, 37869.6, YES, 2,NO, YES, YES, NO, YES oe 
22,MALE, RURAL, 8877.07,NO,0,NO,NO, YES, NO, YES x 
58, MALE, TOWN, 24946. 6, YES,0, YES, YES, YES, NO, NO = 
37, FEMALE, SUBURBAN, 25304.3, YES,2, YES, NO, NO, NO, NO fs 
54, MALE, TOWN, 24212. 1, YES,2, YES, YES, YES, NO, NO oY 
66, FEMALE, TOWN, 59803 .9, YES, 0,NO, YES, YES, NO, NO i 
52, FEMALE, INNER_CITY,26658.8,NO,0, YES, YES, YES, YES, NO E 
44, FEMALE, TOWN, 15735.8, YES, 1, NO, YES, YES, YES, YES os 


66, FEMALE, TOWN, 55204.7, YES, 1, YES, YES, YES, YES, YES 
36,MALE, RURAL, 19474.6,YES,0,NO, YES, YES, YES,NO _ 
2 





图 8-8 WordPad 中 的 ARFF 文件 


8.1.4 离散 化 


* Whehte ethene ee 
离散 化 。 该 数据 集中 有 三 个 这 样 的 属性 : age, income 和 children。 对 于 属性 children( 数值 ) , 
可 能 的 值 域 只 是 0、1、2 和 3。 CREF 我 们 选择 保留 数据 中 的 这 些 值 这 意味 着 我 
们 可 以 通过 删除 作为 属性 children 类 型 的 关键 字 “numeric”， 并 用 该 值 集 取代 它 而 进行 离散 
化 。 我 们 直接 在 文本 编辑 器 中 完成 这 项 工作 ， 如 图 8-9 所 示 。 在 WordPad 中 编辑 完成 后 ， 保 
存 该 文件 。 可 能 有 警告 消息 弹出 。 只 需 点 击 OK 忽略 该 信息 。 ”。- 

我 们 依靠 Weka 对 属性 age 和 income 进行 离散 化 。 在 这 个 例子 中 ,我 们 把 每 个 属性 都 划 
分 成 3 个 箱 (区 间 ) 。Weka 的 离散 化 过 滤器 可 以 探索 地 划分 这 些 值 域 ， 或 者 使 用 各 种 统计 学 
技术 自动 地 确定 划分 数据 的 最 佳 方法 。 在 这 个 例子 中 ， 我 们 将 进行 简单 分 箱 。 

首先 ， 我 们 将 通过 打开 文件 bank-data2. arff 将 过 滤 后 的 数据 集 装 入 Weka。 这 个 “打开 ” 
对 话 框 如 图 8-10 所 示 。 

现在 让 我 们 离散 化 新 文件 的 属性 。 这 次 ， 我 们 激活 Filters 对 话 框 ( 见 图 8-11), 
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@attribute age numeric 
Gattribute sex (FEMALE, MALE} re 
@attribute region {INNER CITY, TOWN, RURAL, SUBURBAN} 
@attribute income numeric r 
attribute married (NO, YES} Wi aaa a hn oy a , HID 72 
@attribute children {0,1,2,3) | MENT my 

@attribute car {NO, YES} 

@attribute save_act (NO, YES} 

@attribute current act (NO, YES) 

Battribute mortgage {NO, YES} 

attribute pep {YES,NO} 





fdata 


48,FEMALE, INNER CITY, 17546,NO0, 1,NO,NO,NO,NO, YES 

40, MALE, TOWN, 30085.1, YES,3, YES, NO, YES, YES, NO 

51, FEMALE, INNER CITY, 16575.4, YES,0, YES, YES, YES,NO,NO 

23, FEMALE, TOWN, 20375.4, YES,3,NO0,NO, YES, NO, NO 

57, FEMALE, RURAL, 50576.3, YES,0,NO0, YES,NO,NO,NO 

57, FEMALE, TOWN, 37869.6, YES,2,N0, YES, YES, NO, YES 

22, MALE, RURAL, 6677.07,NO,0,NO,NO, YES, NO, YES 

58, HALE, TONN, 24946.6, YES,0, YES, YES, YES,NO,NO 

37, FEMALE, SUBURBAN, 25304.3, YES,2, YES, NO, NO, NO, NO 

54, MALE, TOWN, 24212.1, YES,2, YES, YES, YES, NO, NO 

66, FEMALE, TOWN, 59803 . 9, YES, 0,NO, YES, YES,NO,NO 

52,FEMALE, INNER CITY, 26656.8,NO,0, YES, YES, YES, YES, NO art 
44, FEMALE, TOUN, 15735.8, YES, 1,NO, YES, YES, YES, YES | , 

66, FEMALE, TOWN, 55204.7, YES, 1, YES, YES, YES, YES, YES $ 
36, MALE, RURAL, 19474. 6, YES, 0, NO, YES, YES, YES, NO ; 
BR FEWALE TNNF TTE 22947 1 VES N YFS VFS YFS ¥FS NA 


¥ 













图 8-9 通过 将 numeric 关键 字 改 变 为 集合 10，1, .2,3| 而 对 变量 children 离散 化 





图 8-10 ”打开 文件 对 话 框 


AAF H LRA AITHLE FT 137 


46 


er eevee i ae sheer aras 


r 


ae 


le@eoe ese eoseeees see 


=" 一- 
f $ 
i f 


=- 


Numeric Tranetorm 
Obstuscate 


一 :一 
5:75 


a 





图 8-11 过 滤器 对 话 框 


选择 weka. filters. unsupervised. attributes. Descretize。 过 滤器 对 话 框 中 的 文本 框 将 出 现 像 Descretize 
-B 10-M-1. 0-R first-last 这 样 的 内 容 。 点 击 该 文本 框 将 出 现 DiscretizeFilter 对 话 框 : 

我 们 输入 每 个 待 离散 化 的 属性 的 编号 。 在 该 例 中 ， 我 们 在 对 应 于 AttributeIndices 的 文本 
框 输入 1，4( 对 应 于 属性 age 和 income) 。 我 们 还 输入 3 作为 箱 数 (注意 ， 如 果 对 于 不 同 的 属 
性 需要 不 同 的 箱 数 ， 我 们 必须 为 每 个 属性 创建 单独 的 过 滤器 ) 。 由 于 我 们 进行 简单 分 箱 ， 因 
此 ， 所 有 其 他 选项 均 设 置 为 false。 该 对 话 框 如 图 8-12 所 示 。 


二 :本科 和 可 





图 8-12 ”对 连续 变量 分 箱 
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这 一 过 程 将 创建 我 们 所 需要 的 离散 化 过 滤器 。 点 击 该 对 话 框 中 的 ;OK 然后 ， 在 Filter 
CURAR) 面板 点 击 Apply。 这 将 产生 新 的 工作 关系 ， 其 中 两 个 被 选中 的 属性 都 被 划分 成 3 个 
箱 。 为 了 检查 结果 ， 我 们 把 这 个 新 工作 关系 保存 在 文件 bank- data3. arff 中 。 如 果 有 疑问 ， 请 
读者 观看 附带 光盘 。 

现在 ， 让 我 们 使 用 文本 编辑 器 (在 本 例 中 是 WordPad) 考察 这 个 新 数据 集 。 数 据 的 顶部 显 
不 在 图 8-13 中 。 我 们 可 以 看 到 ，Weka CAKE A i e e 
例如 ，age 属性 的 较 低 区 间 标 记 为 “( — inf - 34. 333333]” (包括 在 单 引号 和 转 义 字符 中 )， 

中 间 的 区 间 标 记 为 “(34. 333333 - 50. 666667 |”, 等 等 。 这些 标 E p a 
中 ， 表 示 对 应 的 年 龄 值 所 在 的 区 间 。 





fattribute age {' yi {+ int~34, eens ate, 1 A 9434, 333333-50. 6666673 \ ' y: (50. 666687—-int)\''} 
attribute sex (FEMALE, MALE} 

attribute region { INNER_CITY, TOWN, RURAL, ae E 
attribute income {'\' (~inft-24386.172333]\'','\! (24386.173333-43'758.136667]\'','\' {43758,.1366657- § 
Gattribute married (NO, YES} rg 
attribute children numeric eo 
@attribute car (NO, YES} D 
@attrihute save act {NO, YES} 

@attribute current act (NO, YES) 

fattribute mortgage {NO, YES} 

Wattribute pep (YES, NO) 


Rdata 

'\' (34.333333-50. 666667] \'*, FEMALE, INNER CITY, '\' (-inf-24386.173333]\'',NO,1,NO,NO,NO,NO, YES at 
* Nr pp NS jog LE yt IN 3 SN n :YES, 3, YES, NO, YES, YES,NO ©. 
'\'{SD, 666667-inf)\'', FEMALE, INNER CITY,'N' (~iNf-24386.173339}\'', 7ES, 0, YES, YES, YES, NO, NO 

YY ("inf-34.333333]Y'’, FEMALE, TOWN, ‘\' (-inf-24386.173333]\'',YES, 3, NO,NO, YES, NO, NO 

‘\ 1450, 666667-inf)\'', FEMALE, RURAL, '\' (437581136667-inf)\"', YES, 0,NO, YES, NO, NO, NO A 
'\ ' (SO. 666667-int)\'', FEMALE, TOWN, '\' (24396. 173323-439758. 136667}\'', YES, 2, NO; YES, YES, NO, YES 

ny (+4nf~-34.993933]\'', MALE, RURAL, '\' (-inf-24366.173333]\' :,NO, 0, NO, NO; YES, NO, YES 

'\' (50. 666667-inf)\'', MRLE, TOWN, '\: {24386.173333-43758,136667]\'', YES, 0, YES, YES, YES, NO, NO 3 
SABRE RS ECTS 7807 666087)" ' + TEIE, SURADAN.: VA (288067173209 43758, 136667]\'', YES,2, YES, NO, NO, NG. 
'\ (90. 666067-inf)\'', HALE, TOWN, AT f=dnt-24306.175938)5 „TES, 2, YES, YES, YES, NO, NO a 
'\' (50. 666667-int)\'*, FEMALE, TOWN, '\' (43758.136667-inf)\'', YES,0,NO, YES, ves ,NO,NO Mi 
'\' (80. 666667-int)\' , FERALE, INNER CITY, '\' (24386. 173933-43758. 13 6667}\" ,NO,O, YES, YES, YES; YES, N 人 
(NO a ee , FEMALE, TOWN, '\' (~inf-24386. 1733331" , YES, 1, NO, YES, YES, YES, YES 3e 
‘\' (50. 666667-inf)\'', FEMALE, TOUN, '\' (43758.196667-inf) \'', YES, 1, YES, YES, YES, YES, YES 





图 8-13 使 用 文本 编辑 器 改变 数值 变量 的 界限 


显然 ，Weka 的 标记 尽管 可 读 ， 但 是 与 命名 习惯 相去 甚 远 。 因 此 ， 我 们 将 使 用 Word- 
Pad 的 搜索 /和 蔡 换 功能 ， 用 更 简洁 、 更 可 读 的 标记 替换 这 些 标 记 。 幸 而 ，WordPad 具有 功 
能 强大 的 正则 表达 式 模式 匹配 能 力 ， 从 而 支持 我 们 做 这 件 事 。 图 8-14 显示 用 标记 “0_34” 
蔡 换 年 龄 标记 ”( - inf — 34. 333333 ]” 的 WordPad 搜索 /替换 对 话 框 。 注 意 ，regular expres- 
sion( 正则 表达 式 ) 选 项 被 选中 。 在 “Find what” 框 中， 我们 输入 了 整个 标记 “\ '( -inf - 
34. 333333 ]'\ “包括 反 斜 枉 和 单 引 号 ) 。 此 外 ， 反 和 斜 杠 用 另 一 个 反 斜 杠 转 义 ， 使 得 在 正 
则 表达 式 模式 匹配 中 ， 将 它们 按 字 面 意义 处 理 (导致 “\ \'( -inf-34.333333]'\ \”)。 
在 ”Replace with” HEF, 我们 键 人 “0_34”。 现 在 ,我 们 点 击 “Replace All” 按 钮 ， 用 新 模式 
蔡 换 旧 模式 的 所 有 实例 。 E 

类 似 地 ， 我 们 将 使 用 相同 的 技术 ， 用 新 的 字符 串 葵 换 如 下 字符 串 。 

属性 age 

e'\ ' -inf( 34. 333333 \ 1-30 34 

e'\ ' 34. 333333 —50. 666667 \ "—+35_51 

e ' \ ' 50. 666667 — inf \ "—52_ max 
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属性 income 
e'\ ' (inf( 24386. 173333 \ "—-0_24386 
e !\ ' 24386. 173333 — 43758. 173333 \ "—+24387_43758 
'\ ' 43578. 173333 — inf \ "—43759_max 
现在 ， 我 们 再 将 该 ARFF 文件 中 的 关系 名 改 为 "bank- data- final” , 
“bank- data-final. arff ( 


Gi 


并 将 该 文件 保存 为 
见 图 8-15 ) 。 





@relation ‘bank~data-weka, filters. unsupervised. attribute. Remove~Ri-vweka.filters,unsuperviged.at 






fattribute age { NN' (34.933333-50. 666667} \'','\' (50. 666667-inft)\'') 
attribute sex { FEMALE, SALE} 
fatcribute region {INNER CITY, TOUN, RURAL, SUBURBAN) i j 
fatcribute income (YI -~int-24386. L739333T\'','\' (24386.173333-43758.13966657}]\'',*\' (43758 .136667-_ 

fattribute married {NO, YES} wee 


fattribute children numeric 





fattrinute 
fattribute 
_@artribute 
fattribute 
fattribute 


car (NO, YES} - 


save act {NO 
current act 


mortgage (NO 2 


pep (YES,NO} 


Bs 


Bdata 






\ 11 NO, 1, NO, NO, NO, NO, YES d 
\'!, YES, 3, YES, NO, YES, YES, NO ~ 


141 {34.333333 -50,. 666667 
1y" {34.333333 -50. 666667} 
"yr (50.666667-int}\'*, FES $,0, YES, YES, YES, NO, NO 
*\' (~inf-34.33353331\'',¥F? S73, NO, NG, YES, NO, NO 
'\' (S80. 666667- int)\'', FEMALE, sie. ‘\* (43758.1396667-ink}\'', YES, 0, NO, YES, NO, NO, NO 
Nt (50. 666667-int)\'', FEMALE, TOWN, '\' (24906.173333-43756.136667]\'', YES, 2, NO, YES, YES, NO, YES 
NT {-inf-34,333333]\'',HALE,RURAL, '\' (-inf-24366.173332]\‘' ,NO,0,NO,NO, YES, NO, YES 
‘\! (50. 666667~int)\'' , MALE, TOWN, '\' (24366.173333-43758. 136667} \'', YES,C, YES, YES, YES, NO, NO 
14 (34.333333-S0. 666667] Y° ', FEMALE, SUBURBAN, ‘\’ (24306.173333-43758.136667]\'', YES, 2, YES, NO, NO, NC 
14t (50. 686667-int) \"', MALE, TOWN, '\' (~inf-24386.173333]\'', YES,2, YES, YES, YES,NO,NO 
_ +4! (80.666667-inft)\'', FEMALE, TOWN, '\* (43758.136667-1int)\'', YES, 0, NO, YES, YEZ, NO, NO za 
MAN (50: 666667-inf) \*', FEMALE, INNER CITY, NV: (24386. 173333-43758. 136667) \'* , NO, 0, YES, YES, YES, TES, K 
‘| *\'494.333333-S0., 666567]\''- FEMALE, TOUN,!\* (+inf-24386.173353]\'', YES, 1, NO, YES, YES, YES, YES 
| Vso 7 PENALE, TOWN, ' \ (43758. /A96667-inf}\"', YES, 1, YES, YES, YES, YES, YES 
RRI ei: P 
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relation '‘bank-data-weka. fiiters. Hure Niess. attribute. Remove-Ri-weka.filters. BRE BE ag at 


attribute age {0_34,35_51,52_ max) 

attribute sex {FEMALE, MALE) 

@attribute region {INNER CITY, TOWN, RURAL, SUBURBAN} 
@attribute income {0 24386,24387_ 43758, 43759 max) 
@attribute married {NO, YES} 

@attribute children numeric 

Battribute car {NO, YES} 

attribute save act {NO, YES} 

attribute current_act {NO, YES} 

fattribute mortgage (NO, YES} 

fattribute pep {YES, NO} 


Adata 


35 _51,FEMALE, INNER CITY, 0 _24386,NOỌ, 1,NO, NO, NO, NO, YES 

35 51, MALE, TOWN, 24387_43758, YES, 3, YEZ, NO, YES, YES, NO 

52 max, FEMALE, INNER CITY, 0 24386, YES, 0, YES, YES, YES, NO, NO 
0 34,FEMALE, TOWN, O 24386, YES, 3, NO, NO, YES, NO, NO 

52 max, FEMALE, RURAL, 43759 max, YES, 0, NO, YES, NO, NO, NO 

52 “mex, FEMALE, TOUN, 24367 _ 43758, YES,2,NO0, YES, YES, NO, YES 

0 34, MALE, RURAL, O 24386,NO, 0, NO, NO, YES,NO, YES 

S2 max, MALE, TOWN, 24367 43758, YES, 0, YES, YES, YES, NO, NO 
35_51, FEMALE, SUBURBAN, 24387_43758, YES, 2, YES, NO, NO, NO, NO 
52 “max, MALE, TOWN, 0 24366, YES, 2, YES, YES, YES,NO,NO 

52_max, FEMALE, TOWN, 43759 max, YES, 0,NO, YES, YES, NO, NO 

52 max, FEMALE, INNER CITY,24387 43758,NO,0, YES, YES, YES, YEZ, NO 
35_51, FEMALE, TOVN, 0O 24386, YES, 1, NO, YES, YES, YES, YES 

52 pd Legon od ed 43759 wax, YES, 1, YES, YES, YES, YES, YES 





图 8-15 ”搜索 和 替换 后 的 结果 
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8.1.5 关联 规则 挖掘 


现在 ， 我 们 已 经 准备 就 绪 ， 进 入 数据 挖掘 步骤 ， 并 在 我 们 的 数据 集 上 发 现 关联 规则 。 图 
8-16 显示 打开 新 的 数据 文件 “bank-data-final. arff" 后 的 Weka Explorer 界面 。 注 意 ， 离散 化 变 
量 显示 在 窗口 中 。 

不 同 的 关联 规则 表达 数据 集 的 不 同 的 规律 性 ， 并 且 它 们 通常 预测 不 同 的 事情 。 








图 8-16 “打开 文件 后 的 对 话 框 


单 击 “Associate” 将 显示 出 “ Spat yon agg 如 果 你 点 击 这 个 选项 卡 ， hepa 
Apriori 算法 是 所 提供 的 三 个 关联 规则 算法 中 的 一 个 。 在 “Associator” 文 本 框 (显示 默认 命 
行 ) 中 点 击 后 ， 出 现 Apriori 对 话 框 。 es pe 8-17 所 示 。 这 里 ， 我 们 可 以 指定 与 
ori 相关 的 各 种 人 参数。 点击 * More ”按钮 ， 观 察 不 同 参 数 的 一 览 表 。 

Weka 文 持 结果 规则 按照 不 同 的 度量 标准 (如 置信 和 度 、 挺 度 和 提升 度 ) 排 序 。 在 这 个 例子 
中 ， 我 们 选择 提升 度 作为 标准 。 此 外 ， 我 们 输入 了 1. 5 作为 提升 度 (或 改进 ) 的 最 小 值 。 规 则 的 
提升 度 用 规则 的 置信 度 除 以 规则 右 端 (RHS ) 项 集 的 支持 度 计算 。 在 一 种 简化 形式 下 ， 给 定 一 个 
见 则 Z 一 尺 ， 提 升 度 (left) 是 志和 尽 同 时 出 现 的 概率 与 过 和民 的 单独 概率 乘积 的 比 ， 即 


En Pr(L, R) 
eft (LORS E AS 


如 采 该 值 为 1， 则 工 和 尺 是 独立 的 。 该 值 越 高 , LAR FES Pie BA T AE 
随机 出 现 ， 因 为 它们 之 间 存 在 某 种 联系 。 

这 里 ， 我 们 还 将 规则 的 默认 值 (10) 改 为 100。 最 小 支持 度 的 上 界 设置 为 1.0(100% ) ， 
FAREN 0.1(10% ) Weka 的 Apriori 从 支持 度 上 界 开始 ，( 以 A 增 量 ， 其 默认 值 为 0. 05 
或 5% ) 逐渐 降低 支持 度 。 当 产生 的 规则 达到 指定 个 数 或 达到 最 小 支持 度 下 界 时 ， 算 法 停止 。 
显 者 性 检验 选项 仅 用 于 置信 和 度 ， 并 且 默 认 值 ( -1.0) 不 使 用 。 
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图 8:17 关联 罗拉 所 对 话 和 


一 日 设置 好 参数 ， 4 Roscoialor” 文本 框 将 显示 新 的 命令 行 。 现在 我 们 点 击 Start 按钮 ， Z 
行 该 程序 。 这 会 产生 图 8-18 所 示 的 规则 集 o: 我 们 把 输出 保存 在 bank- data- arl. txt 中 。 





rules found: 





age=0_34 195 ==> income=0_24386 current _act-YES 138 conf:{0. 72} < Life: (1.97)> le” 
2. income=0 24386 current _act=YES 215 ==> age<0_ 34 136 conf: (0,64) < Life: (1.97)> lew 
3. imcome=0 24386 285 ==> age=0_34 car=NO0 100 conf: (0.359 < Lift: (1797})> lev: (0.08) F 
4. age=0_34 car-N0 107 ==> income=D 24386 100 conf: (0.93) < Lift: {1.97)> lev: (0.98) 

5. age=-G@ 34 195 ==> income=0_ 24386 pep=W0 111 conf:(0.57) < Lift: (1.94)> lev: (0.09) © 
6. incöme=0 24386 pep=N0 176 ==> age=0 34 lll conf: (0.63) < lift: {1.94)> iev: {0.09} 
age=0 34 195 ==> income=0_24386 save act=YES 106 conf: (0.54) < lift: {1.91)> lev: 
income=0_24386 save_act=YES 171 ==> age=0 34 106 conf: (0.62) < lift: (1.91)> lev: 
income=0_24386 285 ==> age=0_34 mortgage=NO LIS conf: (0.4) < lift; {(1.9}> lev: (0.0%, i 
age=D_34 mortgyage=NO 125 ==> income=0_24386 113 conf: (0.9) < Lite: {1.9)> lev: t0. E, F 
age=0 34 195 ==> sex=MALE income=0 24386 92 conft:{0.47) <. Lift: (1.9)> Lev: (6.07) . 
gex=HALE income=0_ 24386 149 ==> age=0_34 92 conf: {0.62} < Lift: (1.9}> lew: (0.07) © 4 
age=0_34 195 ==> income=0_24386 car=NO 100 conf: (0.51) < Lift:{1.9}> lev: {6.08} ("= jd 
income=0_24386 car=NO 162 ==> age=0 34 100 conf: (0.62) < lift: (1.9)> Lev: (6.03) y 
income=0_24386 285 ==> aye=0_34 current act=YES 138 conf: (6.48) < lift: {1.9)> rev 
age+0_34 current act=YES 153 ==> income=0_ 24396 138 conf: (6.9) lift:(1:9)> lev:” Gg 
age=0 34 sex=MALE 102 ==> income=0_ 24396 92 conft:(0.9) < Lift: (1. 9}> Llev:(0.07) [." f 
income=0_24386 285 ==> age=0_34 sex=MALE 92 confť:({0.32} < Lift: (1.9}> lev:(0.07) | 
income=0_ 24386 285 ==> age=0_34 pep=NO lll. conf: (0.39) < lift: (1.66)> lev: (0.09) E: 
age=0_34 pep=N0 124 ==> income=0 24366 111 conf: {0.9} < Lift: {1.88}> lew: (9.09) E 

age=0_34 195 ==> income=0 24386 174 conf: {6.89} < esa bt abies Lev: aes = t81) cc 








































图 8-18 “关联 规则 控 气 结果 | 
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HER, ZETIA IPE MHAE BA, BAERS 52 个 规则 。 对 于 每 个 规则 ， 给 
规则 左 部 和 右 部 的 频 度 计数 以 及 置信 度 、 提 升 度 、 挺 度 (leverage) 和 确信 度 ( conviction ) 值 。 
注意 ， 挺 度 和 提升 度 度量 的 内 容 类 似 ， 只 是 挺 度 度量 和 RR 同时 出 现 的 概率 ( 见 以 前 的 例 
了 于) 与 和 R 的 每 个 独立 概率 之 差 ， 即 

leverage( LR) =Pr(L, R) —Pr(L) + Pr(R) 

PRL, PERCE LAR AAS. AB LOR 相互 独立 时 所 期 望 覆盖 的 附加 
案例 所 占 的 比例 。 这 样 ， 对 于 挺 度 ， 期 望 值 大 于 0， 而 对 于 提升 度 ， 我 们 希望 看 到 值 大 于 1。 
最 后 ， 确 信 度 (conviction ) 类 似 于 提升 度 ， 但 是 它 度 量规 则 右 部 不 为 真 的 影响 。 它 也 转换 成 
比率 。 因 此 ， 确 信和 度 用 下 式 度量 : 

conviction(L=—>R) =Pr(L) + Pr(not R)/Pr(L, R) 

这 样 ， 与 提升 度 相 反 ， 确 信 度 不 是 对 称 的 (并 且 也 没有 上 界 ) 。 在 大 部 分 情况 下 ， 关 注 
文 持 度 、 置 信和 度 和 提升 度 或 挺 率 来 定量 地 度量 规则 的 “质量 ”就 足够 了 。 然 而 ， 就 有 效 性 
(usefulness ) 和 可 行动 性 (actionability ) 而 论 ， 规 则 的 实际 价值 评价 是 主观 的 ， 并 且 高 度 依赖 
于 特定 的 领域 和 商务 目标 。 


8. 1.68 .分 类 


Weka 实现 了 大 量 分 类 和 预测 算法 。 使 用 这 些 算法 的 基本 思想 是 类 似 的 。 在 这 个 例子 
中 ,我 们 将 使 用 银行 数据 的 修改 版 本 ,对 新 的 实例 使 用 C4. 5 算法 进行 分 类 (注意 ，C4.5 在 
Weka 中 作为 分 类 方法 类 weka. classifiers. j48. J48 实现 ) 。 银 行 数据 的 修改 ( 较 小 ) 版 本 可 以 在 
文件 bank. ar 人 f 中 找到 ,如 图 8-19 所 示 。 


£2 bar karf- WordPad 





Rrelation bank 


fattribute age numeric 

fattribute sex { MALE, FEMALE} 

fattribute region {INNER CITY, RURAL, TOWN, SUBURBAN} 

@attribute income numeric 

@attribute married {YES, NO} 

Battribute children {YES, NO) 

@attribute car {YES, NO} rel 
fattribute mortgage {YES, NO} Ei 
attribute pep {YES,NO) $ 


fdata 


48, FEMALE, INNER CITY, 17546,NO, YES, NO, NO, YES 

40, NALE, TOUN, 30085. 1, YES, YES, YES, YES, NO 

51, FEMALE, INNER CITY, 16575. 4, YES, NO, YES, NO, NO 

23, FEMALE, TOWN, 20375. 4, YES, YES, NO, NO, NO 

57, FEMALE, RURAL, 50576,3, YES, NO, NO, NO, NO 

57, FEMALE, TOWN, 37869. 6, YES, YES, NO, NO, YES 

22, MALE, RURAL, 8977.07, NO, NO, NO, NO, YES 

58, MALE, TOWN, 24946. 6, YES, NO, YES, NO, NO 

37, FEMALE, SUBURBAN, 25304,3, YES, YES, YES, NO, NO 

54, MALE, TONN, 24212. 1, YES, YES, YES, NO, NO 

66, FEMALE, TOWN, 59803 .9, YES, NO, NO, NO, NO 

52, FEMALE, INNER CITY, 26658,8, NO, NO, YES, YES, NO 

44, FEMALE, TOWN, 15735.68, YES, YES, NO, YES, YES 

66, FERALE, TOUN, 55204.7, YES, YES, YES, YES, YES 

36, MALE, RURAL, 19474. 6, YES,NO,NO, YES, NO 

36, FEMALE, INNER_CITY,22342.1, YES,NO, YES, YES,NO 

37, FEMALE, TOUN, 17729.8, YES, YES, NO, YES, NO 
ENA mre, 41016 SES NA ND VFS WO wa 
ee Ea E 





我 们 仍然 从 装 和 人 数据 到 Weka 开始 ， 如 图 8-20 所 示 。 
下 一 步 ,我 们 选择 “Classify” (分类) 选项 卡 。 大 约 有 6 组 算法 ,我 们 选择 文件 夹 
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“trees” ~ H trees, RITE J48 分 类 方法 ， 如 图 8-21 所 示 。 TER, C4.5 是 由 ID3 进化 而 来 
的 ， 但 与 ID3 不 同 ，J48(C4.5 算法 的 Java 实现 ) 并 不 要 求 数值 属性 离散 化 。 


i 
t 
t 

7 

os 
$ 
$ 


Weka Exptorer 





图 8-21 选择 分 类 方法 


现在 ,我 们 可 以 在 弹出 的 窗口 中 指定 算法 的 各 种 参数 。 在 这 个 例子 中 ， 我们 接受 默认 
值 ， 但 reduceErrorPruning 被 设置 为 True。 该 参数 的 默认 版 本 并 不 使 用 子 树 提 升 方法 进行 剪 
校 。 选 定 的 参数 如 图 8-22 所 示 。 

在 主 面板 的 “Test option” (检验 选项 ) F, RINE 10 折 交 又 确认 作为 我 们 的 评估 方法 。 
由 于 我 们 没有 独立 的 检验 数据 集 ， 为 了 对 所 生成 模型 的 准确 率 进行 合理 评估 ， 这 是 必要 的 。 
现在 点 击 ”Start "来 产生 模型 。 当 模型 构造 完成 后 ， 树 的 ASC 码 版 本 和 评估 统计 量 将 出 现 
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在 右 部 的 面板 中 。 通 过 点 击 最 新 结果 集 (在 左边 面板 的 “Result list” 中 ) 并 从 弹出 菜单 中 选择 
“View in separate window”， 我 们 可 以 在 独立 的 窗 口中 观察 这 些 信 息 。 这 些 步骤 和 包含 分 类 
结果 的 结果 窗口 分 别 如 图 8-23 和 图 8-24 所 示 。 | 


nda saan 


PO ease atts nae 


RN3-O1-M2 


ON 


Correctly Classified Instances 

“| Incorrectly Classified Instances 90 

Í Kappa statistic 0.3889 
Mean absolute error 0.3627 
Root mean squared error 0.4614 
Relative absolute error 73.0016 * 
Root relative squared error 942.5788 % 
Total Number of Instances 300 


. i ‘oo wot 2) H {=== Detailed Accuracy By Class ==» 


N : ee j non mee TP Rate FP Rate Precision Recall F-Measure Clase 
J 0.594 0.21 0.707 0.594 0.646 YES 
0.73 0., 406 0.696 0,79 0.74 NO 


=== Confusion Matrix saw 


7 a & pb. <-- classified as 
. 82 S61 a = YES’ 
34128 | b = NO 


图 8-23，J48 决策 树 构造 的 结果 
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==» Classifier model {full training s€t} === 


J48 pruned tree 


rm 


children = YES 


| 
l 
f 
i 
} 
| 
i 
i 


income <= 30099,9 


car = YES: NO (35.0/9.9} 
car = NO 


married 


= YES 


{ mortgage = YES 


i i 
| f 


income <= 1338i: NO (2.0) 
income > 13381: YES (9.0/2.0) 


| mortgage = NWO: NO (16.0/7.0} 


married 


children = NO 
married = YES: WO (58.0/14.0) 
married = NO 


mortgage 
mortgage 


Number of Leaves 


Size of the tree 


= NO: NO {19.076.0) 


income > 30099.3: YES (38.6/3.0) 


= YES: NO (9.0/1.0) 
= NO: YES (14.0/1.0) 


9 


17 


Time taken to build model: 0.08 seconds 


22x Stratified cross-validation ==e 
ass Summary === 


Correctly Classified Instances 210 70 % 





图 8-24 ”使 用 J48 的 决策 树 
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注意 ， 我 们 的 模型 的 分 类 准确 率 只 有 70% (参见 图 8-23 ) 。 这 表明 在 构造 男 一 个 模型 之 
前 ， 我 们 可 能 需要 做 更 多 的 工作 (或 者 预 处 理 ， 或 者 为 分 类 选择 正确 的 参数 ) 。 然 而 ， 在 这 
个 例子 中 ， 我 们 将 继续 使 用 该 模型 ， 尽 管 它 不 准确 。 | : 
Weka 还 允许 我 们 观察 分 类 树 的 图 形 形 式 。 通 过 右 击 最 新 结果 集 ( 同 上 ) 并 从 弹出 菜单 先 
择 “Visualize tree" 就 可 以 完成 这 一 操作 ( 见 图 8-25) 。 注 意 ， 通 过 缩放 窗口 和 选择 树 视 图 内 的 


各 种 菜单 项 (使 用 鼠标 右键 ) ， 我 们 可 以 调整 树 视 图 ， 使 它 更 可 读 ( 见 图 8-26) 。 


RN3Q1-M2 


{he 


eee 


# Correctly Classified Instances 
Incerrectly Classified Instances 
Kappa statistic 4 iy) Oe 3869), 
{Mean absolute error 0.3527 
Root mean gquared error 0.4614 
4 Relative absolute error 73.0016 3 
| Root relative squared error 92.5788 % 
| Total Number of Instances 300 


axe Detailed Accuracy By Class === 
FP Rate. Precision Recaii F-Measure 


0.594 0.646 
0.79 0, 74 


psified as 
ps. 





Sa 
Me somone oma 


图 8-25 ”决策 树 可 视 化 
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图 8-26 决策 树 


8.1.7 RŽ 


为 了 说 明 在 Weka 中 进行 聚 类 的 过 程 ， 我 们 将 使 用 k- 均 值 算法 一 对 我 们 的 银行 数据 集 进 
行 聚 类 。 该 数据 集 的 这 个 版 本 的 唯一 变化 是 “children” 属 性 已 经 从 数值 属性 转换 成 分 类 属性 。 
然而 ， 对 于 聚 类 而 言 ， 这 不 是 必需 的 。 数 据 文件 是 bank. arff， 它 包含 600 KLM, A 
8-27 显示 该 文件 装 人 后 Weka Explorer 的 主 界面 。 | 





图 8-27 ” 主 对 话 框 
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某 些 k- 均 值 算法 的 实现 只 支持 数值 属性 。 在 这 种 情况 下 ， 有 必要 把 数据 集 转 换 成 标准 
的 电子 数据 表 ， 并 将 分 类 属性 转换 成 二 元 属性 。 还 有 必要 把 依据 不 同 尺度 度量 的 属性 (如 
“年 龄 "和 “收入 ”) 值 规范 化 。 尽 管 Weka 提供 了 过 滤 程 序 来 完成 这 些 预 处 理 任 务 ， 但 是 对 于 
Weka 中 聚 类 ， 它 们 不 是 必需 的 。 这 是 因为 Weka SimpleKMeans 算法 自动 处 理 分 类 和 数值 属 
性 的 混合 。 此 外 ， 在 进行 距离 计算 时 ， 该 算法 自 动 规范 化 数值 属性 。Weka SimpleKMeans 算 


法 使 用 欧 氏 距离 计算 实例 和 簇 之 间 的 距离 。 
为 了 进行 聚 类 ， 选 择 该 Explorer 中 的 “Cluster” 选项 卡 ， 并 点 击 框 中 “Clusterers” 标签 ， 


这 时 会 出 现 可 用 聚 类 算法 的 下 拉 列 表 。 在 这 个 例子 ， 我 们 选择 “SimpleKMeans”， 于 是 出 现 
一 个 弹出 窗口 (如 图 8-28 所 示 )。 





图 8-28 选择 聚 类 算法 


在 图 8-29 所 示 的 弹出 窗口 中 ， 我 们 输入 6 PERE, JE APLAR “seed” (种 子 ) 值 不 变 。 
种 子 值 用 来 产生 随机 数 ， 而 随机 数 又 用 来 产生 实例 到 簇 的 初始 指派 。 注 意 ， 一 般 来 说 ，k- 均 
值 对 簇 的 初始 指派 相当 敏感 。 这 样 ， 通 常 需要 尝试 不 同 的 值 并 评估 结果 。 


es 


ahi Be tibjes 





图 8-29 -均值 对 话 框 。， 
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— AEM, RIT Is TARA, AE, RITA“ Cluster Mode” Mi H 
中 ,已 经 选中 “Use training set” 选项， 并 且 点 击 “Start”。 与 分 类 例子 一 样 ， 我 们 可 以 右 击 
“Result list” 面板 中 的 结果 集 ,， 并 在 独立 的 窗口 中 观察 聚 类 结果 。 这 一 过 程 和 结果 窗口 显示 
在 图 8-30 和 8-31 中 。 : 


Weka Explorer 


N6-519 


Cluster 2 
Mean/Mode: 35.6667 MALE INNER CITY 23353. 4775 YES ¥ 
Std Devs: 12.5325 N/A NYA 10571. 081 
3 人 
Mean/Mode: 45.6667 MALE TOWN 32565,8598 YES YRS YE! | 
N/A 13608, 6747 


as 


Std Deve: 13.0677 N/A 
Cluster 4 j 本 
Mean/Mode: 54.2549 FEMALE INNER CITY 36112.9843 NO | 
Std Deva: 10.231 N/A N/A 13255,6708 
5 ae: 
Mean/Mode: 47.8491 FEMALE TOWN 30463.2775 YES NO YE 
Std Devs: 12.7149 N/A N/A 12096. 143€ 


Ciustered Inetances 


as 15%} 
iS%} 
21%} 
14%} 
17%} 
18%} 





14:55:19 - Simtek earns 
$ 





thin Cluster sum of Squared errors: 25, 49 799 A FU 
Cluster centroids; ae ly i vi 
Cluster 0 i a) 
Mean/Mode: 4b. 1778 FEMALE INNER CITY 25595.8336 YES NO NO NO YES an 地 
Sted Devs: 12.6801 N/A N/A 12067.1583 N/A N/A N/A H/A N/A 
Cluster 1 
Mean/Mode: 31.5217 FEMALE INNER CITY 16467.0633 YES YES NO YES YES py? ac WN 
Std Devs: 11.0126 N/A M/A 7532.618 M/A N/A ”N/A N/A M/A 
Cluster 2 | FT MRA NT si Te PRS xz 
Meen/Mode: 35.6667 MALE INNER CITY 23353.4775 YES YES YES NO NÖ i ; 
Std Devs: 12.5325 N/A N/A 19571.0941 N/A N/A N/A sei ae N72 
Cluster 3 t SA i Aia e ty Pi ; 
Mean/Mode: 45.6667 MALE TOWN 32565.0590 YES YES YES YES YES tire i 
Std Devs: 13,0677 N/A /A ` 12600.6747 N/A N/A N/A Nea 
Cluster 4 
Mean/Mode: 54.2549 FEMALE INNER CITY 36112.9843 NO YES WO ND YES sri 
Std Deva: 10.231 M/A N/A 13255.6706 N/A N/A N/A N/A 
Cluster 5 ale 
Mean/Mode: 47.6491 FEMALE TOWN 30463.2775 YES NO YES YES NO ena tay. 
Std Devs: 12.7149 N/A N/A 12096. 1436 N/A N/A N/A N/A 


Clustered Instances 


8 45 ( 15%) a 

t 46 { 15%} 

2 63 { 21%) i 
3 42 { 14%) 

4 Si { 173) 

5 53 { 10%) 





图 8-31 在 独立 的 窗口 中 查看 聚 类 算法 的 秩 


结果 窗口 显示 每 个 簇 的 质心 ， 以 及 指派 到 不 同 簇 的 实例 个 数 和 百分比 。 簇 的 质心 是 每 个 
入 的 均值 向 量 ( 因此 ， 质 心 的 每 个 维 值 表示 入 中 该 维 的 均值 ) 。 这 样 ， 质 心 可 以 用 来 刻画 艇 。 
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例如 ， 族 1 的 质心 表示 这 是 一 个 实例 段 ， 代 表 中 年 (大 约 47 岁 ) 女 性 ， 住 在 市 区 ， 平 均 收 大 
2) $32000, 单身 母亲 (已 婚 = yes; 子女 =2) 。 此 外 ， 这 组 人 平均 有 汽车 ， 有 储蓄 账号 ， 但 
是 没有 抵押 (并 且 平 均 具 有 PEP( 个 人 参股 计划 ) 产 品 ) 。 

为 一 种 理解 每 个 簇 的 特征 的 方法 是 通过 可 视 化 。 我 们 可 以 通过 右 击 “Result list” 面板 中 
的 结果 集 ， 并 选择 “Visualize cluster assignments” 来 实现 。 这 时 会 弹出 可 视 化 窗口 ， 如 图 8-32 
所 示 。 


Chusteorer Visualiz 


“Colour: Cluster (Norn) 


{i 5.6667 MALE INNER CITY 23353.4775 YES ¥ | 
oa. S325 N/A N/A 19571.081 


6667 MALE TOWN 32565.8598 YES YES YES © 7 
0677 N/A N/A 13608.674% jf 


h.2549 FEMALE INNER CITY 36112.9843 WO 了 | 
p.231 N/A N/A 13255.670€ | 


|P.8491 FEMALE TOWN 30463.2775 YES NO YE 
1 2.7149 N/A N/A 12096. 143€ 





图 8-32 FAN Te eI He RS TR 


你 可 以 为 每 三 个 不 同 的 维 (x y 轴 和 颜色 ) 选择 徐 号 和 其 他 任意 属性 。 不 同 的 选择 组 
合 将 产生 每 个 簇 中 不 同 联系 的 透视 图 。 在 前 面 的 例子 中 ,我 们 选择 簇 号 作为 x 轴 , (Weka 
设置 的 ) 实 例 数 作为 ? 轴 ，Sex( 性 别 ) 属性 作为 颜色 维 。 这 使 得 每 个 复 中 男性 和 女性 分 布 的 
情况 实现 可 视 化 。 例 如 ， 你 可 以 看 到 徐 0 和 簇 5 被 男性 主 字 ， 而 复 3 AGE 4 被 女性 主宰 。 在 
这 种 情况 下 ， 通 过 把 颜色 维 改 变 成 其 他 属性 ， 我 们 可 以 看 到 它们 在 每 个 簇 中 的 分 布 。 

最 后 ,我 们 可 能 愿意 保存 包括 每 个 实例 以 及 它们 所 指派 的 簇 的 结果 数据 集 。 为 了 完成 这 
项 工作 ， 我 们 点 击 可 视 化 窗口 中 的 “Save” 按钮 ,并 将 结果 保存 为 文件 “bank- kmeans. arff”。 
你 可 以 使 用 所 有 菜单 来 浏览 。 

注意 ， 除了 “instance- number” 属 性 外 ，Weka 还 在 原 数 据 集 中 添加 了 一 F“ Cluster” JR PE- 
TERE EB SY, MERKARI EEREN RPE. ZEB EBT — ei 
单 的 操作 ， 就 可 以 很 容易 地 将 它 转换 成 更 适合 进行 附加 的 分 析 和 处 理 的 数据 集 。 例 如 ， 这 里 
我 们 已 经 将 这 个 数据 集 转换 成 逗号 分 隔 的 格式 ， 并 且 按 聚 类 的 结果 排序 。 此 外 ， 我 们 已 经 由 
任务 2 的 原 数 据 集 ( 排 序 前 ) 添 加 了 ID 字段 。 这 些 步 又 的 结果 可 以 在 文件 “bank-kmeans. csv” 
中 看 到 。 
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8.2 XLMINER 


XLMINER 是 适用 于 Excel 的 完整 的 数据 挖掘 附件 。 它 是 一 种 工具 ， 可 以 用 于 快速 开始 
效 据 挖掘 ， 提 供 各 种 方法 来 分 析 数 据 。 它 广泛 涵盖 了 用 于 分 类 、 预 测 、 亲 合 (affinity ) 分 析 、 
数据 探查 和 归 约 的 统计 和 机 器 学 习 技 术 。 | 
XLMINER 的 组 件 


分 类 3 © 判别 式 分 析 
e Logistic 回归 
。 分 类 树 
o 朴素 贝 叶 斯 
o 神经 网 络 ( 多 层 前 馈 ) 
e -最 近邻 
预测 © 多 元 线性 回归 
© AB E 
。 神经 网 络 (多 层 前 馈 ) 
。 -最 近邻 
EA 。 关联 规则 
数据 探查 o 主 成 分 分 析 
”和 归 约 。 层次 聚 类 
ek- 均 值 聚 类 


XLMINER 样本 数据 集 


XLMINER 5j“ Datasets” 文件 夹 中 收集 的 样本 数据 集 一 起 提供 ， 这 是 XLMINER 安装 的 基 
目录 。 这 些 数据 集 是 Excel 文件 。 对 于 每 个 过 程 ，XLMINER 用 例子 提供 了 广泛 的 联机 帮助 。 
样本 数据 集 用 于 这 些 例子 。 

尽管 某 些 数据 集 规 模 很 小 ， 但 是 对 于 解释 数据 挖掘 技术 ， 它 们 仍然 是 有 用 的 。 在 许多 情 
况 下 ， 大 型 数据 集 可 以 通过 以 下 方法 有 效 地 处 理 : 对 数据 集 抽 样 建立 模型 ， 然 后 将 从 模型 得 
到 的 结论 用 于 整个 数据 集 。 

XLMINER 是 商品 化 的 软件 ,但 是 我 们 可 以 使 用 演示 版 本 一 个 月 。 我 们 在 本 书 光盘 中 提 
供 了 该 软件 的 演示 版 本 。 请 读者 使 用 该 软件 内 置 的 数据 集 进行 实验 。 光 盘 上 还 包含 如 何 使 用 
该 软件 的 说 明 。 该 软件 还 包含 优秀 的 帮助 文档 ， 它 是 自 解释 的 。 | 
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BIS 分 类 和 回归 算法 


在 这 一 章 中 ， 我 们 将 讨论 一 些 经 典 但 功能 强大 的 方法 。 简 单 的 方法 通常 行 之 有 效 ， 而 且 
许多 数据 挖掘 科学 家 在 分 析 实 际 数据 集 的 时 候 也 推荐 采用 “简单 优先 ”的 方法 论 。 

实际 的 数据 集 在 很 多 时 候 具 有 以 下 的 一 些 简单 的 结构 和 特征 : 

1 ) 一 个 简单 属性 解释 了 我 们 正在 研究 的 现象 ， 而 其 他 属性 是 不 相关 的 或 是 宛 余 的 。 

2) 所 有 属性 都 是 相互 独立 的 、 对 最 终 的 输出 的 影响 程度 是 相同 的 。 

3) 如 果 一 个 基于 几 个 变量 的 “if-then-else” 逻 辑 结 构 即 可 描述 事实 ， 则 这 一 逻辑 结构 可 以 
很 容易 地 用 决策 树 来 表示 。 

4) 几 个 独立 的 规则 可 以 指导 将 各 个 实例 分 配 到 不 同 的 类 。 

5 ) 变量 的 几 个 子 集 之 间 相 互 依赖 。 

6 ) 数 值 属性 之 间 的 线性 依赖 。 

7) 实 例 本 身 之 间 的 距离 可 以 指导 分 类 ( 详 见 第 11 章 ) 。 

在 无 限 多 种 可 能 的 数据 集中 ， 可 能 出 现 许 多 种 不 同 的 结构 。 某 一 类 结构 的 数据 控 掘 工 
A, 无论 其 多 么 强大 ， 可 能 完全 无 法 把 握 另 二 类 的 规律 性 ， 即 使 该 类 的 结构 很 简单 。 其 结果 
是 不 同 的 分 类 算法 对 相同 的 数据 给 出 不 同 的 结构 。 当 一 个 分 类 算法 输出 一 个 星 深 难 解 的 结构 
时 ， 男 一 个 算法 却 可 能 给 出 一 个 简单 、 直 接 而 又 全 面 的 结构 。 

这 就 是 “简单 优先 ”的 原则 。 而 且 ， 我 们 注意 到 一 种 分 类 方法 可 能 无 法 适用 于 所 有 数 
据 集 。 

现在 我 们 讨论 一 不 最 简单 的 算法 ， 称 为 “朴素 贝 叶 斯 "(Naive Bayes) 。 


9.2 朴素 贝 叶 斯 


朴素 贝 叶 斯 模型 假定 所 有 变量 对 分 类 而 言 均 是 有 用 的 ， 并 且 这 些 变量 是 相互 独立 的 。 换 
句 话说， 朴素 贝 叶 斯 模型 假定 所 有 变量 是 不 相关 的 。 对 大 多 数 数据 集 而 言 ， 这 是 一 个 不 现实 
的 假设 。 但 是 ， 这 一 假定 在 许多 实际 问题 中 可 以 产生 -一 个 简单 的 祯 测 框 架 ， 并 产生 出 平 意料 
的 好 结果 。 

为 了 说 明 这 一 框架 ， 我们 考虑 在 第 4 章 中 使 用 的 气象 数据 (用 于 打 网 球 ) 。 表 9-1 是 对 气 
象 数据 的 汇总 ， 得 到 这 些 数 据 的 方法 是 对 play 的 每 个 值 (yes 或 no) 计 数 每 个 属性 值 对 出 现 的 
次 数 。 气 象 数据 的 汇总 采用 了 便于 进行 朴素 贝 叶 斯 概率 计算 的 格式 。 


表 9-1 气象 数据 、 计 数 和 概率 
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yes no yes no yes no yes no yes no 
W 3 2 Uy BE oF 1 
w 29.34 2 -Pt7o.N 2S Bi 23790 4/5 Se 6 2/5 9/14 5/14 
Se 4A OS | Be i 25 VER A 1 :ee Bs 
雨 30 AA Vee Be. as | 


表 9-2 给 出 了 新 一 天 的 属性 值 。 朴 素 贝 叶 斯 的 目标 是 预测 类 别 值 ( 打 网 球 = yes 或 打 网 球 
=no) 。 杆 素 贝 叶 斯 以 概率 的 形式 实现 这 二 目标 ， 即 赋予 “ 打 网 球 =yes” 一 个 概率 (也 为 打 网 
球 = no 赋值 )。 


| 表 9-2 新 一 天 的 (气象 ) 打 网 球 
RA 气温 湿度 有 风 Play 
晴 凉爽 高 是 ? 


我 们 使 用 Pr[4] 表 示 事 件 4 发生 的 概率 ; Pr(418) 表 示 事 件 4 在 另 一 个 事件 8 上 的 条 件 
概率 。 假 设 五 是 比赛 进行 ， 即 play 为 yes， 我 们 的 目标 是 计算 Pr(H|E). E 是 证 据 。 证 据 E 
就 是 新 一 天 的 气象 数据 属性 值 的 某 种 组 合 : 天 气 = 晴 ， 气 温 = 凉 灾 ,湿度 = 高 ， 有 风 = 是 。 
我 们 相应 地 称 它 们 为 证 据 E,. E, Es, Ego 假定 这 些 证 据 ( 在 给 定 分 类 的 前 提 下 ) 是 相互 独 
立 的 ， 则 它们 的 联合 概率 由 相应 的 概率 相 乘 获得 ， 即 
Pr(E, | yes) Pr( E, | yes) Pr( E, yes) Pr( E, | yes ) Pr( yes) 

Pr(E). 

上 式 最 后 的 Pr(yes) 是 在 不 知道 任何 证 据 五 ( 即 不 知道 我 们 谈论 的 某 一 天 的 天 气 状 况 ) 的 
前 提 下 “yes ”的 概率 ， 称 为 假设 互 的 先 验 概率 (prior probability) 。 在 我 们 的 例子 中 ， 先 验 概 
率 为 9/14 ， 因 为 14 个 训练 样本 中 有 9 个 (play 属性 的 值 )“yes” 值 。 

式 (9.1) 中 的 分 母 可 以 不 考虑 : 在 最 后 的 归 一 化 (normalizing) 步 又 中 通过 使 yes 和 “no” 
的 概率 之 和 为 1， 我们 可 以 消除 它 。 

我 们 给 式 (9. 1) 中 的 分 子 一 个 新 的 名 字 ares ‘FT YER = yes WLM ( likelihood)” o FET PK 
之 为 似 然 的 原因 是 其 值 反 映 了“ 打 网 球 =yes” 现 的 几率 ,但 是 它 并 非 概率 。 

KE, “yes” KWIZ =2/9 x3/9 x3/9 sae x 9/14 =0. 0053, 

这 些 分 数值 取 自 表 9-1 中 属性 值 为 “yes” 的 列 中 和 新 一 天 的 气象 数据 ( 见 表 9-2) 中 的 属 
性 值 相 对 应 的 值 (概率 值 )， 而 最 后 的 9/14 表示 打 网 球 为 yes 的 天 数 所 占 的 比例 。 使 用 类 似 
的 方法 可 以 计算 “ 打 网 球 =no” 的 似 然 =3/5 x1/5 x4/5 x3/5 x5/14 =0. 0206, 

这 说 明 对 (考察 中 的 ) 新 的 一 天 而 言 ， 不 打 网 球 的 可 能 性 是 打 网 球 的 可 能 性 的 四 倍 。 通 
过 归 一 化 可 以 使 得 这 些 值 转变 为 概率 值 使 得 其 和 为 1: 


0. 0053 | 
Yes 的 概率 二 0053 4.0. 0206 =20. >” 


ao Be. 
No 的 概率 = .0053 40.0206 ` >” 


上 述 简 单 、 直 观 的 方法 基于 条 件 概率 的 贝 叶 斯 定理 。 贝 叶 斯 定理 说 明 ， 如 果 存 在 一 个 假 
设 瓦 和 基于 这 一 假设 的 证 据 五 ， 那 么 在 我 们 的 例子 中 


Pr(yes|E) = (9-9) 


DH Ho 9) Ek 103 
a E a a a a L 
-PEELE PAH). _ Pr( Ey | H)Pr(E, | H) Pr(E; | H)Pr(E, |H) Pr( H) 

E) Pr(E) ( 
Hp ESE, NENE, me pant EN E,. E, Ey SAAR, RUA: 
Pr(E|H) =Pr(E,|H)Pr(E,|H) Pr(E,|H) Pr(E,|H) 
这 一 方法 以 朴素 贝 叶 斯 命名 ， 因 为 它 是 基于 贝 叶 斯 定理 的 ， 并 且 简 单 地 假定 属性 间 的 独 
立 性 一 一 只 有 事件 是 相互 独立 的 ， 其 发 生 概 率 的 连 乘 才 是 合法 的 。 在 现实 中 ， 属 性 间 (在 给 
定 类 别 ) 是 相互 独立 的 ， 显 然 是 简单 化 的 假定 。 尽 管 朴 素 贝 叶 斯 的 名 字 并 不 响亮 ,但 是 它 在 
实际 数据 上 测试 时 效果 很 好 ， 特 别 是 名 人 过 一 些 属 性 选择 的 过 程 ， 消 除 宛 余 ， 进 而 消除 了 一 些 
非 独立 属性 时 尤其 如 此 。 


9.2.1 朴素 贝 叶 斯 的 零 频 率 问 题 


如 果 某 个 属性 值 不 在 每 个 类 别 值 的 训练 集中 都 出 现 ， 则 会 出 现 问题 。 
例如 ， 使 用 表 9-1 中 的 数据 集 ， 如 果 要 预测 表 9-3 中 给 定 属性 值 的 新 的 一 天 的 类 别 值 ， 
则 我 们 得 到 =1 和 Pr(No|E) =0, 这 是 因为 Er( “天气 = 多 云 ' |* ath yes’ ) 
=1,， 且 Pr( “天气 = 多 云 " | ' 打 网 球 =yes’) =0。 理 论 上 这 是 正确 的 ， 因 为 只 要 天 气 是 多 云 
就 能 打 网 球 。 aia ca 后 采 违 背 了 朴素 贝 叶 斯 的 基本 假设 : etl epee: 性 (依赖 变 
量 ) 。 在 目前 这 个 例子 中 ， 输 出 只 依赖 于 “天 气 = 多 云 ”。 
表 9-3 新 的 一 天 的 另 一 组 数据 
a, 气温 湿度 有 风 打 网 球 
多 云 凉爽 高 是 ? 
这 个 问题 通过 稍稍 改变 根据 频率 计算 概率 的 方法 可 以 很 容易 地 被 解决 。 
例如 ， 表 9-1 的 上 半 部 分 显示 ， 对 打 网 球 =no 而 言 ， 天 气 是 晴天 的 数据 有 三 条 ， 多 云 有 
零 条 ， 而 雨天 有 两 条 。 表 的 下 半 部 分 计算 了 三 个 事件 的 概率 分 别 为 3/5，0《5 ，275。 现在 ， 
我 们 可 以 为 每 个 分 子 值 加 1， 然 后 相应 的 给 分 母 值 加 3， 得 到 的 概率 分 别 为 4/8，1/8 和 3/8。 
这 样 可 以 保证 出 现 零 次 的 属性 值得 到 一 个 小 的 、 非 零 的 概率 值 。 为 每 个 计数 加 一 的 策略 是 称 
为 拉 首 拉 斯 估计 (Laplace estimator) 的 标准 技术 ， 它 以 18 世纪 伟大 的 法 国 数学 家 皮 埃 尔 + 拉 
PHL (Pierre Laplace) 的 名 字 命 名 。 尽 管 这 一 方法 在 实践 中 效果 良好 ， 但 是 没有 充分 的 理由 
来 为 每 个 计数 加 1。 替代 地 ， 我 们 可 以 选择 一 个 常数 久 并 使 用 下 式 计算 . 
Ea T 0 +u/3 2 4/3 


IFAT IP TIT 

现在 上 式 是 完全 的 贝 叶 斯 公式 ， 它 为 每 个 (事件 的 ) 概率 计算 都 赋予 了 先 验 概 率 。 这 种 
方法 是 完全 严格 的 ， 但 缺点 是 应 该 如 何 进 行 先 验 概率 赋值 通常 不 是 很 明确 。 在 实践 中 ， 除 非 
有 相当 数量 的 训练 数据 实例 ， 否 则 先 验 概率 作用 不 大 。 因此 人 们 通常 使 用 拉 普 拉 斯 估计 通过 


将 所 有 的 计数 初始 化 为 1， 而 非 0， RM o 
9.2.2 缺失 值 和 数值 属性 


由 时 斯 方法 的 优点 之 一 是 数据 缺失 不 会 造成 很 大 的 问题 ; 举例 来 说 ， 如 果 在 表 9-2 中 没 
有 大 气 趋势 的 数据 值 ， 那 么 在 计算 中 只 要 简单 地 忽略 掉 这 个 属性 ， 得 到 : 
yes 的 似 然 =3/9 x3/9 x3/9 x9/14 =0. 0238 


Pr(H|E) = 9.2) 
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no 的 似 然 =1/5 x 4/5 x3/5 x5/14 =0. 0343 

这 两 个 数值 分 别 比 之 前 的 计算 值 高 很 多 ， 因 为 计算 时 少 了 一 部 分 值 。 但 是 这 人 么 做 是 没有 
问题 的 ， 因 为 这 部 分 值 在 两 种 情况 下 都 缺失 了 ， 并 且 这 些 似 然 值 容 易 归 一 化 ， 得 到 的 yes 和 
no 的 概率 分 别 为 41% All 59% 

如 果 一 个 训练 实例 中 缺失 了 一 个 值 ， 那 么 在 进行 频率 计数 的 时 候 只 需 忽 略 对 其 的 计数 ， 
同时 在 概率 计算 中 使 用 实际 出 现 的 值 的 个 数 而 非 训练 数据 的 总 数 ; 

对 数值 属性 ,通常 假定 它们 服从 正 态 或 高 斯 分 布 。 表 9-4 给 出 了 有 数值 属性 的 天 气 数 据 
的 汇总 。( 在 数据 的 汇总 中 ) 对 标 称 属性 而 言 ， 计 数 仍 然 按 照 以 前 的 方法 进行 ， 而 对 数值 属 
性 只 是 列 出 所 有 出 现 的 数值 。 然 后 ， 对 标 称 属性 的 计数 被 归 一 化 为 概率 ， 而 每 个 类 和 每 个 数 
值 属性 计算 均值 和 标准 偏差 。 这 样 ,，“yes” 实 例 上 的 温度 均值 为 73， 其 标准 偏差 是 6. 2。 

表 9-4 ”有 数值 属性 的 天 气 数 据 的 汇总 统计 





打 网 球 
yes no yes no 

晴 2 3 9 5 
多 云 4 0 

雨 3 2 

晴 2/9 3/5 ‘ 6/9 2/5 9/14 5/14 
多 云 4/9 0/5 不 . 9 3/9 3/5 

if 3/9 2/5 


对 一 个 具有 均值 上 和 标准 偏差 o WEED TES, 其 概率 密度 函数 由 下 面 的 表达 式 
Woe 





fayette iA 
a 


上 述 描述 意味 着 ， 如 果 我 们 认为 输出 是 “yes”， 而 此 时 有 温度 值 ， 比 如 说 是 66， 那 么 我 
们 只 要 在 上 面 公式 中 插入 x=66, w=73 以 及 og =6.2 即 可 。 所 以 概率 密度 函数 的 值 是 : 


fC HAE = 66 | yes) yal aai 0. 0340 
i = yes) = EITTERA. 
V276. 2 


使 用 相同 的 记号 ， 输 出 为 yes， 而 湿度 的 值 ， 比 如 说 是 90 ， 其 概率 密度 可 以 以 相同 的 方 
式 计算 如 下 : | 
.用 湿度 =90/yes). =0. 0221 
ERS- 5 的 新 一 天 的 数据 中 使 用 这 些 概率 和 密度 函数 值 ， 得 到 : 
yes 的 似 然 =2/9 x0. 0340 x0. 0221 x3/9 x9/14 =0. 000036 
no 的 似 然 =3/5 x0. 0291 x0. 0380 x3/5 x9/14 =0. 000136 


通过 上 式 可 以 得 到 下 面 的 概率 : 
0. 000036 
ves AMER = 9 990036 +0. 000136 
no 的 概率 ES eee >t —~79.1% 


0.000036 + 0.000136 


DH Feo E 2 JE ck ISS 


这 些 值 和 先前 使 用 表 9-2 的 数据 的 计算 结果 非常 接近 ， 因 为 气温 值 66 和 湿度 值 90 RE 
的 概率 接近 于 前 面 我 们 使 用 的 气温 值 为 凉爽 、 湿 度 值 为 高 发 生 的 概率 。 

正 态 分 布 的 假定 使 得 很 容易 扩展 朴素 贝 叶 斯 分 类 器 来 处 理 数值 属性 。 如 果 任 何 数值 属性 
ERR, 那么 我 们 只 基于 存在 的 值 来 计算 均值 和 标准 偏差 。 


表 9-5” 另 一 个 新 的 一 天 的 天 气 数据 
kA 气温 ey 湿度 有 风 打 网 球 
Eeo 66 | 90 是 ? 


朴 又 贝 叶 斯 以 清晰 的 语义 给 出 了 表示 、 利 用 和 学 习 概 率 知 识 的 简单 方法 ， 并 且 使 用 它 可 
以 获得 很 好 的 结果 。 在 实践 中 ， 已 经 多 次 证 明 朴 素 贝 叶 斯 在 许多 数据 集 上 不 逊 于 甚至 优 于 一 
些 更 复杂 的 分 类 方法 。 这 里 的 原则 是 : 总 是 优先 尝试 简单 的 方法 。 经 过 不 断 尝试 ， 机 器 学 习 
的 研究 痢 经 过 努力 、 试 图 使 用 更 复杂 的 学 习 模 型 获得 良好 结果 ， 却 在 多 年 之 后 发 现 使 用 类 似 
朴素 贝 叶 斯 的 简单 方法 即 可 获得 同样 乃至 更 好 的 结果 。 


9.3 多 元 回归 分 析 


9.3.1 什么 是 回归 分 析 


回归 分 析 是 进行 数据 分 析 来 解释 关联 和 因果 关系 的 统计 方法 。 回 归 分 析 通 常 和 相关 性 分 
析 一 起 进行 。 相 关 性 分 析 度 量 两 组 数量 值 之 间 的 关联 度 ， 而 回归 分 析 是 基于 一 个 变量 或 更 多 
其 他 变量 的 变化 来 解释 另 一 个 变量 的 变化 。 其 中 ,被 解释 的 变量 称 为 因 变量 ( dependent vari- 
able) ， 用 于 解释 ( 因 变量 ) 变 化 的 变量 称 为 自 变量 (independent variable) 。 因 此 ， 回 归 分 析 解 
释 了 存在 于 因 变量 和 自 变量 之 间 的 因果 效应 。 
9.3.2 简单 和 多 元 回归 分 析 

如 果 只 有 一 个 因 变 量 ， 并 且 只 有 一 个 自 变量 用 于 解释 因 变 量 的 变化 ， 那 么 这 个 模型 称 为 
简单 回归 模型 (simple regression model) 。 如 果 有 多 个 自 变量 用 于 解释 一 个 因 变量 的 变化 ， 则 
这 个 模型 称 为 多 元 回归 模型 (multiple regression model) 。 分 析 的 过 程 称 为 多 元 回 归 分 析 ( mul- 


tiple regression analysis ) 。 
9.3.3 在 市 场 营销 中 的 应 用 

回归 分 析 在 市 场 营 销 中 的 主要 应 用 是 根据 若干 自 变量 进行 销售 预测 。 回 归 分 析 还 可 以 用 
来 估计 奉 干 人 口 及 心理 因素 之 间 的 关系 ， 也 可 以 用 来 确定 单个 满意 度 元 素 对 总 体 满 意 度 的 相 
对 影响 。， 
9. 3. 4 方法 

一 般 的 回归 模型 具有 下 面 的 形式 : 

Y=a+b,x, +b3x%, ++: + bx. 

其 中 了 是 因 变 量 ,而 x, %2, 7, ,是 期 望 和 Y 相关 并 可 以 用 来 解释 和 预测 了 的 自 变 量 。 


bi, b,, "ES b, 是 相应 的 目 变 量 的 系数 ， 这 些 系 数 可 以 通过 输入 数据 来 确定 。 
进行 回归 分 析 需 要 关于 了 及 每 一 个 x 变量 的 输入 数据 。 输出 由 模型 的 所 有 自 变量 的 系数 
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组 成 。 输 出 还 给 出 模型 中 每 个 自 变量 的 显著 性 的 二 检验 结果 ， 以 及 整体 模型 的 玉 检 验 结果 。 
9.3.5 ”使 用 Excel 进行 多 元 回归 分 析 | | 


为 了 使 用 微软 的 Excel 进行 多 元 回归 分 析 ， 我们 首先 需要 将 数据 输入 Excel 工作 表 。 因 
变量 和 上 自 变量 以 矩阵 形式 输入 Excel 王 作 表 。 我 们 通过 使 用 Excel 解决 一 个 实际 生活 中 的 问 
题 来 说 明 如 何 用 Excel 进行 实现 多 元 回归 分 析 。 这 个 问题 描述 如 下 ;二 个 电动 马达 的 制造 商 
和 营销 商 希 望 构建 一 个 有 6 个 自 变量 的 回归 模型 来 预测 销售 ， 并 收集 了 来 自 15 个 区 域 的 销 
售 和 6 个 自 变 量 的 历史 数据 。 

我 们 假定 数据 来 自 公司 的 不 同 运 营区 域 ， 并且 在 这 些 区 域 收集 的 6 个 变量 的 数据 如 下 : 

@ 因 变 量 

Y= 该 区 域 的 销售 额 ， 以 万 卢比 为 单位 

。 自 变 量 

x, = 该 区 域 的 市 场 潜力 (以 万 卢比 为 单位 ) 

x = 公司 在 该 区 域 的 经 销 商 数量 | 

x, = 该 区 域 的 销售 人 员 数 量 

x, = 该 区 域 苑 争 者 活动 的 5 级 别 评定 (竞争 者 的 活动 等 级 1 = 低 ，5 = 高 ) 

xs = 该 区 域 的 服务 人 员 数 量 

xs = 该 区 域 已 有 的 客户 数量 

这 一 问题 的 回归 模型 如 下 : 


Y =a + bixi tb% + 5x; + baxs + bsxs + boxe (9.3) 
9.3.6 输入 数据 


由 15 个 观测 值 (来 自 15 个 不 同 销售 区 域 ) 组 成 的 数据 集 以 矩阵 形式 输入 Excel。 在 数据 
输入 后 ， A ge 
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图 9-1 微软 Excel 电子 表格 中 用 于 回归 的 数据 
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在 输入 数据 之 后 ， 如 图 9-2 所 示 ， 点 击 Tool 选择 Data analysis, 


PR 和  Compelionxa) Semice(x5s) Customerod) 
ae 6. i 


+ 


è 


RN: 


4 
im 
3, 
Bs. 1 
G: 
rE EI 
NSi 
3 


Ar 


ROWNe~avawnnan= 
NWAUNNAGAWANNON 
Cini 


aRUWARONG 


re 





图 9-2 选择 Excel 中 的 数据 分 析 包 
在 弹出 的 Data analysis ( 数据 分 析 ) 框 中 选择 Regression( 回归 )， 如 图 9-3 STAN. 
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图 9-3 选择 回归 选项 


在 选择 回归 选项 后 ， 会 弹出 如 图 9:4 所 示 的 窗口 。 
在 该 窗口 中 分 别 为 了 和 无 选 定 其 所 对 应 的 因 变 量 单元 格 区 域 和 目 变 量 单元 格 区 域 。 然 
后 进行 分 析 ， 输 出 结果 会 出 现在 一 个 新 的 工作 表 中 ， 如 图 9-5 所 示 。 
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图 9-5 Excel 的 回归 分 析 输 出 


9.3.7 回归 输出 
回归 (分 析 ) 输 出 列 出 了 自 变量 的 系数 。 在 图 9-5 中 可 以 看 到 其 位 于 B 列 的 17 ~23 行 ， 


分 类 和 回归 算法 159 


如 下 所 示 : 

a( EE ( intercept) ) = —3. 17298 

b, =0. 22685 

b, =0. 81938 

b, = 1.09104 

by = 1.89270 

b; = -—0.54925 : 

b, =0. 06594 

将 这 些 值 代 入 公式 9.3 中 ,我 们 可 以 将 其 写 为 (所 有 系数 四 舍 五 人 至 2 位 小 数 ) : 

销售 = -3.17+0.23( 市 场 潜力 ) +0. 82( 经 销 商 ) +1.09( 销 售 人 员 ) -1.89 
(竞争 者 活动 ) -0.55( 服 务 人 员 ) +0.07( 已 有 客户 ) 

图 9-5 中 的 P-Value 列 基于 显著 性 水 平 为 0.1( 置信 和 度 水 平 =90% ) 提供 了 自 变 量 对 输出 
结果 的 显著 性 度量 。 在 我 们 的 例子 中 ,“ 市 场 潜力 ”和 “销售 人 员 ” 两 个 变量 的 P-Value 值 低 于 
0.10。 因 此 ， 当 显著 性 水 平 为 0. 1 时 ， 只 有 这 些 变量 对 销售 有 显著 的 影响 。 

使 用 Excel， 我 们 可 以 对 15 个 区 域 的 下 一 个 周期 的 销售 进行 预测 。 为 此 ， 在 回归 对 话 框 
(参考 图 9-4) 里 选中 Residual 复 选 框 。 我 们 可 以 得 到 图 9-6 所 示 的 预测 结果 。 
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9-6“ 残 差分 析 


如 果 小 心地 避免 其 局 限 性 ， 简 单 或 多 元 回归 分 析 是 一 种 用 于 解释 和 预测 的 有 用 方法 。 一 
般 而 言 ， 不 应 使 用 这 种 方法 来 预测 和 构建 模型 时 所 使 用 的 数据 值 域 相差 其 远 的 值 。 而 且 ， 应 
尽 可 能 地 避免 模型 中 的 自 变量 之 间 有 较 高 的 相关 性 。 
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9.4 逻辑 斯 请 回归 


逻辑 斯 详 (Logistic) 回归 拓展 了 多 元 线性 回归 的 思想 ， 处 理 因 变量 y 是 二 值 的 情形 (为 简 
单 起 匈 ， 我 们 通常 用 0 和 1 对 这 些 值 进行 编码 )。 和 多 元 线性 回归 一 样 ， 自 变量 x, ,x%,，… 
x, 加 以 是 分 类 变量 、 连 续 变 量 或 二 者 的 混合 类 型 。 我 们 用 一 些 例子 来 说 明 [ 1]。: 

例子 1: 市 场 调研 。 表 9-6 中 的 数据 来 自 AT&T 公司 在 美国 所 做 的 调查 ， 是 其 注册 用 户 
家 庭 中 的 一 个 全 国 范围 内 的 样本 。 调 查 的 目的 是 找 出 接受 一 种 新 的 电信 服务 与 教育 、 居 住 稳 
定性 和 收入 的 关系 。 


表 9-6 逻辑 斯 谤 回归 分 析 的 数据 格式 


x, Ma %3 样本 数量 接受 者 数量 不 接受 者 数量 接受 者 比率 

0 0 0 2160 153 2007 0. 071 

0 0 1 1363 147 6 0. 108 

0 1 gt 1137 226 911 0.199 

0 1 1 547 139 408 0. 254 

1 0 0 886 61 825 0. 069 

1 1 0 1091 233 858 0.214 

1 0 1 1925 287 1638 0. 149 

1 1 1 1415 382 1033 0.27 
10524 1628 8896 ph 


注意 ， 样 本 数据 中 (新 服务 ) 的 总 体 接 受 新 服务 的 概率 是 1628/10524 =0. 155。 但 是 ， 接 
受 新 服务 的 概率 因 教 育 、 居 住 稳定 性 和 收入 等 自 变量 的 类 别 不 同 而 异 。 最 低 值 是 0.069 ,来 
目 低 收入 、 无 迁居 并 且 受 过 某 种 高 等 教育 的 家 庭 。 而 最 高 值 是 0.270, 来 自 高 收入 、 有 迁居 
并 且 受 过 某 种 高 等 教育 的 家 庭 。 标 准 多 元 线性 回归 模型 不 适合 对 这 种 数据 建 模 ， 原 因 如 下 : 

1 ) 模 型 的 预测 概率 可 能 会 超出 0~1 的 范围 。 

2) 因 变量 并 非 正 态 分 布 。 事 实 上 ， 二 项 式 模型 更 合适 。 例 如 ， 如 果 一 个 单元 总 共 11 PP, 
则 该 变量 只 能 取 11 个 不 同 值 0，1，2,，…，11。 想 象 单 元 中 的 家 庭 的 响应 通过 随机 掷 硬币 
确定 ， 正 面 朝 上 代表 接受 ， 正 面 朝 上 的 概率 随 单 元 变化 。 

3) 如 采 我 们 认为 正 态 分 布 是 三 项 式 模型 的 近似 ， 那 么 在 所 有 的 单元 中 ， 因 变量 的 方差 
不 是 常数 : 对 于 接受 新 服务 的 概率 p 接近 0.5 的 单元 ,方差 比 p 在 0 或 1 附近 的 那些 单元 
高 。 该 方差 还 随 一 个 单元 中 的 住户 数 增 加 。 该 方差 等 于 [ (1 -p) ]。 

引入 逻辑 斯 诺 回 归 模 型 可 以 解决 这 些 问 题 。 现 在 ， 逻 辑 斯 诺 回 归 模 型 已 经 成 为 计量 经 济 
学 中 描绘 选择 行为 以 及 流行 病 学 中 对 风险 因素 建 模 的 常用 方法 。 在 选择 行为 方面 ， 已 经 证 实 
逻辑 斯 详 回 归 模 型 作为 消费 者 行为 的 标准 经 济 学 理论 的 扩展 ， 符 合 Manski 提出 的 随机 效用 
理论 (random utility theory) 。 

本 质 上 ， 消 费 者 理论 是 说 当 一 个 消费 者 面临 一 组 选择 的 时 候 ， 其 所 做 的 选择 具有 最 高 的 
效用 (效用 是 以 任意 的 零点 和 尺度 对 价值 的 量化 度量 )。 它 假定 消费 者 对 选择 列表 有 一 个 倾 
向 性 排序 ， 而 这 一 排序 满足 一 些 合理 的 标准 ， 如 传递 性 。 倾 向 性 排序 可 以 基于 个 体 ( 如 例子 
1 中 的 社会 经 济 特 征 ) 或 所 做 选择 的 属性 。 随 机 效用 模型 认为 一 个 选择 的 效用 是 纳入 一 个 随 
机 元 (random element) 。 当 我 们 对 随机 元 建 模 ， 认 为 其 来 自 一 个 “合理 的 ”分 布 时 ， 我 们 可 以 
逻辑 地 导出 预测 选择 行为 的 逻辑 斯 详 模 型 。 

如 果 我 们 以 Y=1 表示 选择 一 个 选项 ， 而 了 =0 表示 不 选择 该 项 ， 则 逻辑 斯 详 回 归 模 型 定 
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义 为 : 
exp(Bo +B, * x, +B, * x,) 
Probability (Y =1|x,, x,, °°, %,) ee ey 

其 中 Bu， Bi, Bo» 1, By 是 类 似 于 多 元 线性 回归 模型 的 未 知 的 常数 。 

我 们 模型 中 的 因 变 量 是 : 

“i 三 (教育 : 高 中 或 以 下 =0, KERL E =1) 

”三 居住 稳定 性 : 近 五 年 没有 变化 =0， 近 五 年 有 变化 =1) 

%3 三 收入 : 低 =0;  =1) 

表 9-6 中 的 数据 以 回归 程序 所 要 求 的 典型 格式 组 织 。 

这 个 例子 的 逻辑 斯 说 模型 是 . 


Probability( Y=1 | x, Be» RED __ &xp(Bo + Bi * % + By * x, + Bs * x%3) _ 


1 + exp(B) +B, * x, +B, * x, +B, * x; ) 
通过 下 面 的 式 子 我 们 得 到 系数 的 有 用 解释 : 
Fick Y =1/x, Sa, =x, =0) 

exp (Bo) ~ Prob( Y =0/x, ie ete Aa 
= 基本 情况 (wx =0, x, =0, x, =0) 接 受 新 服务 的 几率 
BOR ah =1, x) =% =0 时 接受 新 服务 的 几率 
of 在 基本 情况 下 接受 服务 的 几率 
x, =l, x, =x, =O 时 接受 新 服务 的 几率 
在 基本 情况 下 接受 服务 的 几率 
wep (By) -所 1 和 = 的 =0 时 接受 新 服务 的 几率 
在 基本 情况 下 接受 服务 的 几率 
逻辑 期 详 模 型 是 下 面 形式 的 几率 乘积 : 


exp(B,) = 
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对 于 给 定 的 Mis Ko Na 接受 新 服务 的 几率 = exp ( By ) x exp (Bx, X exp ( B,x, ) x exp 


(Bx; ) 


= | 基本 情况 的 几率 } x | 关于 x 的 因子 } x {关于 x 的 因子 | x {关于 的 因子 | 
WAR x, =1， 那 么 无 论 x, Ax; 的 取 值 如 何 ， 接 受 新 服务 的 几率 都 将 被 乘 以 相同 的 因子 。 
同样 ， 关 于 x, 和 % 的 因子 也 不 随 其 他 变量 的 取 值 而 改变 。 变 量 的 这 个 因子 说 明了 该 变量 的 


存在 对 接受 新 服务 的 几率 的 影响 。 


WAS B;=0， 那 么 相应 (变量 ) 的 因子 没有 作用 ( 乘 以 1)。 如 果 B; <0， 则 (变量 的 ) 因 子 
降低 了 接受 新 服务 的 几率 (以 及 概率 )， 而 当 B;>0 WY, (变量 的 ) 因子 增加 了 接受 新 服务 的 


概率 。 


这 些 ( 值 的 ) 最 大 似 然 估 计 需 要 一 个 计算 机 程序 迭代 地 计算 。 一 个 典型 的 计算 机 程序 的 


输出 结 采 见 表 9-7 o 
表 9-7 EA VAD AT iy 


, 1 为 几率 设置 95% 的 置信 区 间 
变量 系数 标准 差 P- 值 E FR = ER 
常数 Bo i 0. 058 0 0082 0. 071 0. 095 
x, 0. 161 0. 058 0 1. 175 1. 048 1. 316 
X> 0. 992 0. 056 0 2. 698 2. 416 3.013 
xX, 0. 444 0.058 0 1. 56 1. 393 1. 746 
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根据 系数 的 佑 计 什 ， 对 于 具有 目 变 量 值 x, x, x; 的 家 庭 ， 接 受 新 服务 的 估计 概率 为 : 
exp( 一 2. 500 +0. 161 «x, +0. 992 * x, +0. 444 * x, ) 
1 +exp( —2.500 +0. 161 * x, +0. 992 * x, +0. 444 * x, ) 


用 该 模型 估计 采用 新 服务 的 家 庭 个 数 是 具有 自 变量 值 x, , x, x, 的 家 庭 总 数 乘 以 上 面 的 
概率 。 表 9-8 给 出 了 自 变量 取 值 的 各 种 组 合 所 对 应 的 接受 新 服务 者 的 估计 值 。 | 


9-8 基于 逻辑 斯 谤 回归 模型 的 估计 输出 


Probability(Y =1|x,, x,, %3) = 





‘ee 样本 数 。 ” ”接受 者 数量 估计 的 接受 者 数量 接受 者 比例 hy AE i 
0 0 0 2160 153 164 0. 071 0. 076 
0 0 1 1363 147 155 0. 108 0.113 
0 ] 0 1137 226 206 0. 199 0. 181 
0 1 1 547 139 140 0. 254 0. 257 
1 0 0 S66. 61 78 0. 069 0. 088 
1 1 0 1091 233 225 C214 Hl 0. 206 
1 0 1 1925 287 252 0. 149 0. 131 
1 1 1 1415 382 408 0. 27 0. 289 


在 数据 挖掘 应 用 中 ， 我 们 有 在 拟 合 模型 时 没有 使 用 的 保留 数据 作为 验证 数据 。 不 妨 假设 
我 们 具有 以 下 ( 见 表 9-9) 由 598 个 用 户 组 成 的 验证 数据 。 


“| 表 9-9- 检验 数据 
接受 者 数量 数量 (实际 估计 ) 
0 0 0 29 3 2 -0.8 0.8 
0 0 l 23 7 ux 2 61 一 4. 39 4, 39 
0 1 0 112 25 20. 302 一 4. 698 4. 698 
0 1 | fa 143 27 i 36: 705 9. 705 9. 705 
1 0 0 27 2 2. 374 0. 374 0. 374 
1 1 0 54 12 11. 145 —0. 855 0. 855 
1 0 pi 125 13 16. 338 i 3. 338 3. 338 
1 J 1 85 30 24. 528 - 5. 472 5. 472 
总 计 598 |， 116.202 n" 


总 体 误 差 是 -2.8: 个 (新 服务 的 ) 接 受 者 ， 或 者 说 估计 接受 者 的 误差 百分比 是 一 2. 8/119 
=2.3% 。 平 均 绝 对 值 误 差 百分比 是 : (0. 800 +4. 390 + 4. 698 +9.705 +0.374 +0.855 + 
3. 338 +5. 472)/119 =0. 249 =24.9% 。 表 9-10 列 出 了 验证 数据 集中 的 用 户 家 庭 的 混淆 矩阵， 


表 9-10 混淆 矩阵 


预测 观测 到 的 接受 者 非 接受 者 总 数 
接受 者 103 13 ag 116 
非 接受 者 16 466 482 
总 数 119 479 598 


和 多 元 线性 回归 一 样 ， 我 们 可 以 通过 引入 由 相互 作用 的 因子 计算 而 得 到 的 (新 的 ) 因子 
来 构建 更 复杂 的 模型 来 反映 自 变 量 之 间 的 相互 影响 。 例 如 ， 如 果 我 们 认为 % 和 % 之 间 存在 
相互 影响 的 效果 ， 我 们 可 以 增加 一 个 相互 影响 项 x = 2, xxm。 
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9.5 k- 最 近邻 分 类 


k- 最 近邻 算法 构建 分 类 模型 时 不 对 联系 因 变 量 ( 响应 变量 )y 和 自 变量 ( 预测 变量 ) 2, 
Nha Aaa ae Oh MW RROGEI y =f(x,, Wa a PIR a x) WAEHERE o 我 们 所 做 的 唯一 假定 是 
这 个 函数 是 “光滑 ”函数 。k- 最 近邻 算法 是 非 参数 化 (non-parametric ) 方法 ， 因 为 与 我 们 在 线 
性 回归 中 所 做 的 不 同 ， 它 不 涉及 假定 的 函数 的 参数 估计 训练 数据 的 每 一 个 观测 有 一 个 y 
值 ， 说 明 该 观测 的 所 属 类 别 。 例 如 ， 如 果 有 两 个 类 ， 则 y 是 一 个 二 元 变量 。k- 最 近邻 方法 是 在 
训练 数据 集中 动态 地 确定 个 与 我 们 希望 分 类 的 新 观测 (wl，w,，ws，…，w,) 相似 的 观测 ， 并 
使 用 这 些 观 测 把 新 观测 分 到 某 一 类 C 中 。 如 果 我 们 知道 函数 /， 那 么 只 计算 C=f(u，w， 
wu ，…，w,)。 如 果 我 们 只 假设 是 /是 一 个 光滑 函数 ， 那 么 主 个 合理 的 想法 就 是 在 训练 数据 中 寻 
找 和 它 ( 根 据 自 变量 ) 接 近 的 观测 ， 然 后 用 这 些 观 测 对 应 的 y 值 计算 C。 这 类 似 于 插值 的 思想 ， 
如 同 我 们 使 用 正 态 分 布 表 常 做 的 那样 。 当 我 们 谈 到 近邻 时 ， 通常 意味 着 能 够 根据 自 变量 计算 观 
测 点 间 的 距离 或 相 异 性 度量 。 目 前 ， 我 们 使 用 最 常见 的 距离 度量 : 欧 几 里 德 距离 。 

ka (x), Daa Aa a T xp ) 和 (u,, yg MOS no As u, ) Z lal AY 欧 几 里 德 距 离 为 
Ca 一 U1) ”+ (@ 一 wy) ++ (x, 一 ww, 六。 当 讨 论 肾 类 方法 的 时 候 ， 我 们 会 考虑 在 预测 变量 
空间 中 定义 点 的 距离 的 其 他 方法 。 最 简单 的 是 当 =1 的 情况 ， 这 时 我 们 找 出 最 近 的 观测 点 
(最 近邻 ) ， 并 且 C =y， 其 中 y 是 最 近邻 的 类 别 。 一 个 值得 注意 的 事实 是 : 当 我 们 的 训练 集 
中 观测 点 的 数目 很 大 时 ， 使 用 最 近邻 对 观测 分 类 这 种 简单 、 直 观 的 想法 可 能 是 非常 有 效 的 。 
可 以 证 明 1-NN 的 误 分 类 概率 不 劣 于 我 们 知道 每 个 类 的 精确 的 概率 密度 函数 时 误 分 概率 的 2 
音 。 换 名 话说， 如 果 有 大 量 的 数据 和 充分 复杂 的 分 类 规则 ， 我 们 最 多 能 将 分 类 错误 减少 到 使 
用 简单 的 1-NN 规则 时 的 一 半 。 下 面 我 们 将 1-NN 的 想法 拓展 到 k-NN。 | 

首先 ， 寻 找 上 个 最 近邻 ， 然 后 用 多 数 表 决 规则 对 新 的 观测 分 类 。& 值 较 高 的 优点 是 能 提 
供 平滑 的 分 类 ， 降 低 由 于 训练 数据 中 存在 噪声 而 过 分 拟 合 的 风险 。 在 典型 的 应 用 中 ,上 是 一 
位 数 或 两 位 数 ， 而 不 是 成 百 上 千 。 注 意 ， 如 果 有 =nw， 即 等 于 训练 数据 集中 的 观测 数目 ， 则 
我 们 只 不 过 是 对 所 有 的 观测 都 用 训练 数据 中 的 多 数 类 来 预测 ， 而 不 管 (u,， ws, u, =, u) 
的 值 是 什么 。 这 显然 是 一 个 过 平滑 的 例子 ， 除 非 自 变量 中 根本 就 没有 关于 因 变量 的 信息 。 

例子 .一 个 乘坐 式 割 草 机 的 制造 商 希望 找到 一 种 方法 把 一 个 城市 中 的 家 庭 分 类 为 可 能 买 
乘坐 式 割 草 机 的 家 庭 和 不 想 买 乘坐 式 割 草 机 的 家 庭 。 在 这 个 城市 中 ， 随 机 抽取 12 个 拥有 乘 
坐 式 割 草 机 的 家 庭 和 12 没有 乘坐 式 割 草 机 的 家 庭 。 这 些 数据 见 表 9-11 和 图 9-7。 


表 9-11 乘坐 式 割 草 机 数据 


观测 收入 ( 千 美 元 ) 草地 面积 ( 千 平 方 英尺 ) 拥有 =1 不 拥有 =2 
1 60 18.4 1 
2 85.5 | 16. 8 1 
646 A 21.6 1 
4 61.5 20. 8 1 
5 oi 23.6 1 
6 32 a 19.2 1 
7 108 17.6 1 
8 82.8 pr A. 1 
9 69 20 1 
1 
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( 续 ) 

观测 收入 ( 千 美元 ) 草地 面积 ( 千 平方 英尺 ) 拥有 =1 不 拥有 =2 
1] : 51 22 1 

12 81 20 1 

13 75 19. 6 2 

14 52.8 20. 8 2 

15 64.8 V7.2 2 

16 43.2 20. 4 2 

17 84 17.6 2 

18 49.2 17.6 2 

19 59.4 16 2 

20 66 18. 4 2 

21 47.4 16. 4 2 

22 43 18. 8 2 

23 51 14 2 

24 63 14.8 2 





图 9-7， 乘 坐 式 割 草 机 数据 图 (检验 和 训练 数据 ) 


我 们 如 何 来 选择 大 值 呢 ? 在 数据 挖掘 中 ， 对 不 同 的 左 值 ， 我 们 用 训练 数据 对 案例 (case) 
分 类 ， 并 计算 相应 的 分 类 错误 率 。 在 这 个 例子 中 ， 我 们 随机 地 把 数据 集 划分 为 含有 18 个 实 
例 的 训练 集 和 含有 6 个 实例 的 验证 集 。 当 然 ， 在 实际 的 数据 挖掘 情况 下 ， 会 有 更 大 规模 的 数 
据 集 。 验 证 集 包 含 表 9-11 中 第 6、7、 12. 14, 19, 20 个 实例 。 剩 下 的 18 个 观测 构成 训练 
数据 。 图 9-7 展示 了 在 训练 集 和 验证 集中 的 所 有 实例 。 注 意 ， 如 果 我 们 选择 E=1;7 WAR 
择 了 一 种 对 数据 的 局 部 特征 非常 敏感 的 分 类 方式 。 另 一 方面 ， 如 果 我 们 选择 大 的 左 值 ， 则 相 
当 于 对 大 量 数据 点 取 平 均 ， 同 时 平滑 掉 因 单 个 数据 点 的 噪声 而 导致 的 波动 性 。 如 果 选 择 = 
18， 在 各 种 情况 下 我 们 将 只 预测 在 数据 集中 最 频繁 出 现 的 类 。 这 是 非常 稳定 的 预测 ， 但 它 完 


全 忽略 了 自 变量 中 的 信息 。 
表 9-12 列 出 了 针对 不 同 的 值 在 验证 数据 集中 对 观测 的 误 分 类 率 。 
表 9-12 错误 率 
k 1 3 5 7 9 11 13 18 





误 分 类 率 % 33 33 33 33 33 17 17 50 
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FET BIE, BORGER k= 11 BEE 13 ) 。 这 个 选择 很 好 地 对 在 低 左 值 时 的 变动 性 
和 高 不 值 时 的 过 平滑 现象 进行 了 折衷 。 值 得 一 提 的 是 : 通过 “有 效 参数 的 数目 "概念 推定 大 值 
是 有 益 的 。% 的 相应 有 效 参 数 的 数目 为 nAk， 其 中 是 训练 数据 集中 观测 的 数目 。 因 此 ，k = 
11 的 有 效 参 数 数目 大 约 为 2， 光 滑 程 度 上 和 两 参数 的 线性 回归 相似 。 


9.5.1 k- 近 邻 预测 


可 以 很 容易 地 推广 k-NN 分 类 的 思想 ， 用 来 预测 连续 值 ( 和 我 们 建立 多 元 线性 回归 模型 
的 目的 一 样 )， 这 可 通过 简单 地 预测 个 近邻 的 依赖 变量 的 平均 值 来 实现 。 通 常 使 用 加 权 平 
均 ， 权 重 随 着 与 待 预 测 的 点 的 距离 增加 而 减 小 。 


9.5.2 k-NN 算法 的 缺点 


在 实际 应 用 k-NN 方法 时 有 两 个 困难 。 首 先 ， 虽 然 从 训练 数据 中 估计 参数 不 需要 时 间 ， 
但 在 大 训练 集 寻 找 最 近邻 的 时 间 可 能 非常 长 。 已 经 实现 了 许多 的 想法 去 克服 这 个 困难 。 主 要 
的 想法 有 : 

1 ) 使 用 降 维 技术 ( 旭 主 成 分 分 析 ) 来 减少 维 数 ， 从 而 减少 计算 距离 所 用 的 时 间 。 

2 ) 用 复 洒 的 数据 结构 (如 搜索 树 ) 来 加 快 最 近邻 的 确定 速度 。 这 个 方法 经 常 通过 设 定 “ 几 
乎 最 近邻 "的 目标 来 提高 搜索 速度 。 

“3) 编 辑 训 练 数 据 ， 删 除 训练 集中 的 元 余 和 “几乎 元 余 ” 的 点 ， 从 而 加 快 最 近邻 的 搜索 速 
度 。 例 如 ， 训练 数据 集中 被 属于 同类 的 观测 点 包围 的 观测 点 对 分 类 没有 影响 ， 则 可 以 删除 这 
些 观 察 点 。 

其 次 ， 训 练 数据 集 所 需 的 观测 的 数目 随 着 维 数 p 的 增长 以 指数 方式 增长 。 这 是 因为 除非 
训练 数据 集 的 大 小 随 着 以 指数 方式 增长 ， 否 则 到 最 近邻 的 期 望 距离 随 着 p 急剧 上 升 。 这 种 
现象 被 称 为 “ 维 灾难 ”， 如 果 在 训练 数据 中 的 自 变量 均匀 地 分 布 在 p 维 单位 超 立 方 体 中 ， 那 
么 一 个 点 沙 在 距 中 心 的 0.5 单位 的 概率 是 : 

RENAT 
P pPI) 
K 9-13 用 来 说 明 对 于 不 同 的 H n WHAE, VARA ALR QO RE FEIRER., 
表 9-13 Ap, n 的 函数 ， 距 离 在 0.5 之 内 的 点 数 


Pp 





N 2 3 4 5 10 20 30 40 
10000 7854 5236 3084 1645 25 0. 0002 210° 3x107" 
100000 78540 52360 30843 16499 249 0. 0025 2x10~° 3 x40 证 
1000000 785398 523600 308452 164993 24900 0. 0246 2x10™ 3x10°" 
10000000 7853982 523600 3084251 164934 24904 0. 2461 2x107 3x107" 


对 于 所 有 分 类 、 预 测 和 聚 类 方法 而 言 ， 维 灾难 都 是 一 个 主要 问题 [5，9] 。 这 就 是 为 什 
么 我 们 经 常 通过 诸如 为 模型 选择 预测 变量 的 子 集 或 采用 主 成 分 分 析 、 奇 异 值 分 解 和 因子 分 析 
等 方法 来 组 合 它 们 ， 努 力 寻 找 减 少 预 测 变量 空间 维 数 的 方法 的 原因 。 在 人 工 智能 和 数据 挖掘 
文献 中 ， 降 维 通常 是 指 因子 选择 (factor selection) 。 
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9.6 GMDH 


传统 的 决策 树 方法 ， 如 第 4 章 介绍 的 ID3[3，4]、CHAID 和 CART 中 的 分 类 树 都 是 基于 
数据 空间 的 轴 平 行 划 分 。 大 多 数 情 况 下 ， 这 类 决策 树 的 复杂 度 非常 高 。 最 近 25 年 ， 研 究 者 
们 发 表 了 很 多 论文 来 讨论 高 级 的 决策 树 归 纳 方法 。 这 些 研 究 的 主要 目的 是 提高 决策 树 预测 准 
确 度 并 降低 构建 决策 树 复杂 度 。 

建立 更 好 的 决策 树 的 一 种 方法 是 基于 新 属性 构建 决策 树 [7]。 构 建新 属性 提供 了 更 快 、 
更 好 的 数据 分 类 。0C1[6 ] 方 法 使 用 基本 属性 的 线性 或 多 项 式 组 合 来 构建 新 属性 。0C1 被 称 
HE & RA (oblique decision tree) 方 法 。 与 传统 的 正 交 ( 轴 平 行 ) 决 策 树 相 比 ，0C1 方法 分 类 
的 准确 度 更 高 。 对 于 二 又 决策 树 而 言 ， 以 基本 属性 的 并 (conjunction)、 交 (disjunction ) 或 反 
(negation ) 来 构建 新 属性 的 方法 是 很 有 用 的 。 以 Fringe 方法 [8] 为 例 ， 它 利用 节点 的 约束 ， 
二 接 从 决策 树 分 文 构建 新 属性 。 

分 类 问题 的 图 形 解释 非常 简单 。 当 属性 空间 被 划分 为 区 域 ， 而 数据 集中 的 每 一 条 记录 都 
根据 其 数据 记录 的 类 别 被 放置 到 其 对 应 的 区 域 后 ， 分 类 任务 就 完成 了 。 所 有 改变 基本 属性 或 
增加 新 属性 的 决策 树 方法 都 是 通过 变换 基本 属性 空间 来 减少 分 类 区 域 的 数目 。 

GMDH (Group Method of Data Handling， 数 据 处 理 群 组 方法 ) 的 主要 目的 是 变换 基本 属性 
空间 使 决策 树 复杂 度 降 到 最 低 ， 并 提高 预测 准确 率 。 在 这 一 节 中 ,我 们 将 探讨 如 何 确定 构建 
新 属性 所 需 的 基本 属性 的 个 数 ， 使 得 新 属性 可 以 正确 地 根据 已 分 类 数据 记录 的 类 别 将 基本 属 
性 空间 划分 到 相应 的 区 域 。 很 明显 ,属性 的 线性 组 合 方法 太 简 单 ， 不 能 完成 这 一 任务 。 因 
此 ， 本 节 的 任务 是 探讨 使 用 属性 的 多 项 式 组 合 来 构建 新 属性 的 可 能 性 。 

传统 的 Quinlain 决策 树 归 纳 方法 ID3 在 决策 树 的 任意 一 个 节点 上 使 用 一 个 属性 。 对 这 样 
的 属性 的 选择 通常 基于 该 属性 的 信息 增益 。 传 统 决策 树 归纳 方法 的 主要 缺点 是 忽略 了 属性 间 
的 相关 性 ， 因 为 任何 属性 的 分 析 都 独立 于 其 他 属性 。 一 种 考虑 了 属性 间 依 赖 性 的 著名 方法 是 
非 线性 决策 树 (Non- Linear Decision Tree，NLDT) 。 这 种 方法 使 用 属性 的 非 线 性 组 合 来 构建 决 
策 树 节 点 的 约束 。 | 

非 线 性 决策 树 方法 的 缺点 之 一 是 在 整个 属性 集 上 只 使 用 一 个 预定 义 的 非 线 性 组 合 ， 通 常 
是 属性 的 多 项 式 组 合 。 

该 方法 的 为 一 个 缺点 是 所 使 用 的 属性 组 合子 数 的 阶 不 高 于 2; 因为 更 高 阶 的 函数 所 需 的 
计算 量 会 更 大 。 第 三 个 缺点 是 需要 构建 决策 树 然后 再 抽取 决策 规则 。 


9. 6.2 数据 处 理 群 组 方法 的 背景 


使 用 数据 处 理 群 组 方法 (GMDH) 是 为 了 确定 属性 闻 的 相关 性 。 这 一 方法 是 由 A. G. Iva- 
khnenko[ 10] 在 30 年 前 提出 的 。GMDH 方法 的 应 用 非常 广 ， 包 括 多 维 过 程 逼近 、 单 步 和 多 步 
预测 、 数 据 聚 类 、 模 式 和 对 象 识别 以 及 诊断 间 题 求解 。 | : 

GMDH 方法 的 主要 目的 是 识别 对 象 的 完整 模型 ， 使 其 满足 外 部 的 约束 。 

ne PM Mae Ss wD (9. 4) 

GMDH 方法 选择 描述 属性 之 间 联 系 的 最 佳 属性 和 最 佳 函 数 。 

该 方法 的 核心 思想 是 将 完整 目标 模型 的 搜寻 分 为 许多 阶段 。 在 每 一 个 阶段 计算 所 有 可 能 
的 任意 属性 对 的 函数 ， 并 且 估 计 它 们 的 拟 合 度 。 


DX Fo 2 HE ik sas 


因此 ， 在 第 一 阶段 计算 下 面 的 函数 : 
yy sAn, y9 V2 =f(%, a ee Ys ii etal (9°35) 
其 中 * = C, 是 这 种 函数 的 个 数 。 
在 该 方法 的 第 工 阶段 ， 对 下 列 函 数 进行 搜索 : 
zi EK Vi» Yo)-s 2 =F Nis Ya) > s % =A HD) (9.6) 
其 中 p=C; 是 这 种 函数 的 个 数 。 
所 有 的 GMDH 方法 只 是 函数 1 的 形式 不 同 。 通 常 使 用 的 是 二 次 多 项 式 函数 。 对 属性 个 数 
为 n 的 目标 而 言 ,一般 可 以 通过 下 面 的 多 项 式 来 近似 : 


Fh By 5 Ss pte? oe) = Q + È, au 十 2 2, Bi + P? >y De Vitit + s+ (9.7) 
i= i=1 j= i=l j=l k= 


使 用 上 面 的 多 项 式 函 数 在 某 些 情形 下 可 能 会 引起 一 些 问题 。 首 先 ， 必 须 选 择 多 项 式 [6] 
中 的 哪些 项 是 重要 的 ， 哪 些 项 是 不 重要 的 。 其 次 ， 如 果 对 象 的 属性 很 多 (例如 有 10 个 ) ， 则 
多 项 式 的 项 数 会 非常 多 ， 因 此 ， 函 数 会 非常 复杂 而 且 难 以 计算 。 

GMDH 方法 的 主要 优点 是 使 用 式 (9.7) 来 确定 对 象 的 完整 模型 可 以 用 使 用 式 (9.5) 和 式 
(9.6) 确 定 的 对 和 象 完整 模型 迭代 合成 来 替代 。 

每 一 个 函数 都 是 基本 分 类 唤 (elemental classificatory) ， 其 系数 通过 使 用 训练 数据 集 和 最 
小 二 乘法 来 确定 。 然 后 ， 根 据 外 部 约束 从 属性 对 的 整个 函数 集 上 选择 最 佳 的 函数 。 每 一 个 被 
选中 的 分 类 器 将 作为 近似 过 程 下 一 个 阶段 的 参数 。 递 归 过 程 持续 到 满足 总 体 的 训练 约束 
为 止 。 

使 用 GMDH 迭代 方法 寻找 近似 函数 的 过 程 如 图 9-8 所 示 。 





属性 数 n 
图 9-8 GMDH 方法 网 络 
分 类 使 用 的 函数 类 型 如 下 : 
F(x), %1) =a + QIX1i +a,%, +a3x1%2( 协 变 线 性 的 ) (9.8) 
F(x, x) =a; taxi tazzz +05%,%5 tazx +a ERK) (9.9) 
ATA _ Qo +41% +43% + 3X1%, + aX! + a,x 


> (多项式 的 ) (9. 10) 
+ b,x, 


1 +b, x, +b,x, + b,x% + br? 


168 . BIE 


GMDH 方法 和 人 工 神经 网 络 非 常 类 似 。 在 这 两 种 方法 中 ， 被 分 析 的 对 象 都 被 作为 震 
箱 ”; 而 且 最 终 的 近似 函数 都 通过 许多 基本 函数 的 组 合 来 得 到 。 

正如 图 9-8 所 示 ， 在 (寻找 近似 函数 ) 过 程 的 第 一 个 阶段 ， 为 下 一 个 阶段 选择 了 一 些 最 好 
的 函数 。 如 果 对 象 有 6 个 属性 ， 那 么 可 能 的 函数 组 合 个 数 是 15 个 。 从 所 有 郴 数 中 选择 出 预 
定义 个 数 的 函数 用 于 下 一 阶段 。 

最 佳 函 数 的 选择 给 出 了 关于 最 佳 属性 对 的 信息 ， 这 一 信息 描述 了 对 象 输出 属性 的 最 佳 相 
关 性 。 因 此， 在 每 个 下 一 阶段 的 近似 过 程 中 仪 使 用 那些 更 好 描述 对 和 象 本 性 的 属性 对 。 


9. 6. 3 构建 决策 规则 


决策 树 归纳 方法 是 一 种 分 类 方法 ， 因 此 研究 的 主要 目标 是 调整 CMDH 方法 使 之 适用 

于 分 类 。 一 个 很 重要 的 工作 是 找 出 根据 数据 集 产生 分 类 规则 、 而 不 构建 决策 树 的 方法 。 

其 基本 思想 是 用 GMDH 方法 为 数据 域 中 的 每 一 类 构建 近似 函数 。 这 一 方法 可 通过 以 下 步 
又 实现 : 

o 数据 域 是 一 张 有 n 列 的 表 ， 表 的 第 n 列 包含 类 变量 的 值 。 整 个 表 按 类 值 排 序 ， 然 后 表 

被 分 为 许多 较 小 的 表 。 每 个 较 小 的 表 只 包含 一 个 类 的 数据 。 换 句 话 说， 对 数据 集中 的 

每 一 个 类 ， 准 备 一 个 单独 的 表 包 含 相应 的 数据 记录 。 这 种 表 的 最 小 个 数 等 于 一 个 类 的 

两 两 可 能 值 。 
。 对 数据 集 的 每 一 个 表 ， 使 用 GMDH 方法 来 寻找 近似 函数 。 同 时 ， 为 每 个 类 值 识 别 出 
最 佳 的 属性 对 。 对 每 个 类 ， 这 样 的 属性 对 可 能 是 不 同 的 。 
。 如 果 为 每 个 类 值 都 确定 了 近似 函数 ， 那 么 可 以 在 不 构造 决策 树 的 情况 下 构建 分 类 
规则 。 

例子 : 我 们 使 用 气象 数据 ， 其 中 分 类 任务 是 “ 打 或 不 打 高 尔 夫 球 ”。 数 据 集 如 表 9-14 

所 示 。 


: 表 9-14” 数据 域 “高 尔 夫 球 ” 
KN 气温 湿度 


A 类 别 
Ba 83 78 a 打 高 尔 夫 球 
多 云 64 65 有 打 高 尔 夫 球 
多 云 81 75 有 打 高 尔 夫 球 
多 云 72 90 Ki 打 高 尔 夫 球 
i 70 96 无 打 高 尔 夫 球 
雨 68 80 无 打 高 尔 夫 球 
雨 75 80 K 打 高 尔 夫 球 
i 65 70 有 不 打 高 尔 夫 球 
W 71 80 有 不 打 高 尔 夫 球 
晴 69 70 无 打 高 尔 夫 球 
晴 75 70 有 打 高 尔 夫 球 
晴 85 85 H 不 打 高 尔 夫 球 
晴 80 90 有 不 打 高 尔 夫 球 
晴 72 95 无 不 打 高 尔 夫 球 


GMDH 方法 只 适用 于 属性 的 连续 值 ， 因 此 必须 改变 数据 集 ， 以 连续 值 蔡 代 所 有 属性 和 
”类 别 的 符号 值 。 经 过 编码 的 数据 集 如 表 9-15 STAN o | 


分 类 和 回归 算法 : = 


#9-15 编码 后 的 数据 集 





打 高 尔 夫 球 
不 打 高 尔 夫 球 





= p tk = wy WH Ww NM WO BY .Ry 





准备 数据 集 的 下 一 步 是 将 数据 记录 已 排序 的 表 根 据 每 个 类 划分 为 三 个 子 表 。 然 后 使 用 
GMDH 方法 为 每 个 表 寻 找 近似 函数 。 

在 这 个 例子 中 使 用 下 列 函 数 : 

F(xi, X) 三 Co +a,x, ¥ aty +a% 
F(%,, %2) = Go +.4,%, +05%_ +0,%,%, +4,%, + 05x; 
F(x, %1) = ao + QIX1 十 0a2M2 +04%,%) +a% + asx + crix + 0%; X 

所 有 的 函数 都 是 多 项 式 的 ， 分 别 为 一 次 、 二 次 和 三 次 。 三 次 函数 中 没有 包括 多 项 式 的 所 
有 可 能 的 元 素 。 

一 般 来 说 ， 根 据 GMDH 方法 ， 必 须 先 定义 最 高 阶 函数 。 然 后 ， 将 GMDH 方法 应 用 于 不 
高 于 所 定义 次 数 的 所 有 可 能 函数 。 近 似 过 程 从 最 低 阶 的 函数 开始 ， 然 后 向 高 阶 继续 。 在 每 一 
步 中 ， 近 似 函 数 必须 增加 新 的 项 。 在 达到 适当 的 近似 误差 或 满足 其 他 外 部 条 件 之 后 ， 近 似 过 
程 停止 。 完 成 这 样 的 递归 过 程 需要 使 用 专门 的 软件 。 

使 用 式 (9. 8) 定义 的 近似 函数 ， 可 以 获得 图 9-9 所 示 的 网 络 。 

图 9-9 中 的 灰色 框 标 出 了 属性 的 最 佳 组 合 。 所 有 函数 使 用 平均 误差 进行 比较 : 


1 n 
MAE = a, EEA J class | 


Hh n Zea RRRA 

两 个 类 的 网 络 结构 都 是 相同 的 。 平 均 误差 值 是 ; 

。“ 打 高 尔 夫 球 ”类 (1)8 x 10-7 

。“ 不 打 高 尔 夫 球 ” 类 ( -1)4 x 1077 

现在 从 图 9-9 可 以 看 出 ， 属 性 的 最 佳 组 合 是 : “天 气 - 湿度 "和 “天 气 -有 风 ”。 

由 式 (9.9) 给 定 的 近似 函数 所 构建 的 计算 网 络 如 图 9-10 所 示 。 网 络 只 包含 一 层 ， 因 为 最 
佳 分 类 (灰色 框 ) 的 平均 误差 远 小 于 第 一 个 函数 。 
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最 佳 分 类 器 
J: F(a,,x,)=a,+a,%,+4,x, 
; 
Ye 
图 9-9 用 式 (9.8) 定 义 的 函数 构建 的 网 络 
最 佳 分 类 器 3 





She ate Diss ait 
F(&,,%,)=,+0,%,+0,%,+0,%,%, Gx? 0x2 


图 9-10 用 式 (9.9) 定 义 的 函数 构建 的 网 络 


对 第 二 个 函数 而 言 ， 两 个 类 的 网 络 结构 也 都 是 相同 的 。 而且， 第 二 个 函数 的 近似 平均 误 
差 是 : 


分 类 和 回归 工法 


。“ 打 高 尔 夫 球 ”类 (1) 1.9x107 
。“ 不 打 高 尔 夫 球 ”类 ( -1) 1.5x10™ 
属性 的 最 佳 组 合 是 天气 -有 风 ”。 


9.6.4 -实验 结果 


使 用 GMDH 方法 进行 分 类 任务 所 获得 的 近似 函数 是 : 
对 “ 打 高 尔 夫 球 ”类 (1)， 平均 误差 (8 x 107’) (AE: 
vi =f( KA, Ah) =0.99 +1. 84 «105° KA 42.04 «10-7 - ih 
vy, = f(RA, WE) =1.04+2.09 x10 - K&-6.17 x10 “ee 
= f( KA, AR) =1.0 $4.22 x10 = RR 44.61 x10 E AM 
打 高 尔 夫 球 =f(y2, ys) =0. 333 +0. 333y, +0. 333y, 
对 “不 打 高 尔 夫 球 ”类 ( - 1), 平均 误差 (1.5x10”) 值 是 : 
不 打 高 夫 球 =f( 天 气 ， 有 风 ) =0.39 -0.28… RA -5.56 x10" HA 
+5.56 x10? - RA? -0. 39 = AM? +5.56 K10-? RAA 
以 上 获得 的 函数 描述 了 数据 集 的 每 个 类 ， 并 可 以 用 来 构建 分 类 规则 。 


9.6.5 讨论 和 总 结 


数据 处 理 群 组 方法 可 以 用 来 分 析 属 性 的 相关 性 及 其 对 类 值 的 影响 。 

GMDH 方法 还 可 以 使 用 高 阶 多 项 式 函 数 近似 (属性 间 HY) ER 避免 了 传统 近似 方 
法 中 所 出 现 的 局 部 最 小 化 问题 。 

有 必要 使 用 更 大 的 、 fas SSCL EO HC URI EC 本 
节 所 使 用 的 数据 域 仅 仅 用 于 测试 GMDH 方法 。 

较 小 的 平均 误差 (~10”) 可 BE AE SS ARETE A > LE ID a PCE 阶 数 相对 高 (二 
阶 ) 造 成 的 。 

GMDH 方法 也 给 出 了 迭代 过 程 何 时 必须 终止 ， 并 且 标明 增加 近似 函数 的 复杂 性 不 是 不 
要 的 。 在 迭代 终止 时 还 可 以 观察 到 近似 误差 有 所 增加 。 

将 来 进一步 的 研究 包括 寻找 近似 函数 估计 拟 合 度 的 最 佳 标准 。 为 了 这 一 目的 ， 应 用 近似 
函数 系数 的 稳定 性 标准 是 很 有 用 的 [10] 。 


9.7 进化 计算 和 遗传 算法 


在 20 世纪 60 年 代 ，I Rechenberg[ 11] 在 其 文章 “进化 策略 ” 中 引信 了 进化 计算 的 虹 思想 。 
他 的 思想 被 其 他 研究 者 进一步 发 展 。John Holland[ 12] 提 出 了 遗传 算法 ( Genetic Algorithm, 
GA) 并 且 由 他 本 人 、 他 的 学 生 和 同事 进一步 发 展 。 这 使 得 Holland 于 1975 年 出 版 了 著作 《 日 
然 和 人 工 系统 的 目 适应 性 》(adaption in natural and artificial systems) 。 

1991 年 ，John Koza[ 13 ] 使 用 遗传 算法 来 进化 程序 完成 某 些 工作 。' 它 将 这 种 方法 称 为 遗 
传 程序 设计 (Cenetic Programming，GP)。 在 GP 中 ,使 用 了 LISP 程序 ， 因 为 在 这 种 语言 中 程 
序 可 以 以 解析 树 (parse tree) 的 形式 进行 表达 ， 而 解析 树 正 是 GA 的 工作 对 象 。 

最 初 的 遗传 算法 是 由 John Holland 于 20 世纪 70 年 代 在 密歇根 大 学 开发 的 。Holland XÆ 
物 系统 可 以 轻松 地 完成 任务 印象 深刻 ， 其 轻松 程度 甚至 超越 最 强大 的 超级 计算 机 ; 动物 能 够 
无 误 的 识别 目标 ， 理 解 和 翻译 声音 ,并 且 可 以 几乎 即时 地 在 一 个 动态 环境 中 导航 。 
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近 些 年 来 ， 科 学 家 们 承诺 要 把 生物 系统 的 这 种 能 力 复制 到 机 器 上 ， 但 是 我 们 开始 认识 到 
这 项 任务 极为 困难 。 很 多 科学 家 认为 任何 具有 这 些 能 力 的 复杂 生物 系统 都 是 通过 进化 获得 这 
些 能 力 的 。 


9.7.1 进化 理论 


进化 理论 本 和 喘 不 停 在 进化 ， 进 化 (计算 ) 通 过 相对 简单 、 自 复制 (self - replicating) 的 模块 
制造 出 具有 令 人 惊奇 能 力 的 系统 。 这 些 模块 遵循 以 下 简单 的 原则 . 

进化 发 生 在 染色 体 级 别 : 有 机 体 本 身 不 会 进化 ， 但 是 其 提供 了 基因 存在 和 延续 的 载体 。 
染色 体 因 基因 的 重组 而 动态 变化 。 

本 质 上 倾向 于 更 多 地 复制 那些 可 以 产生 更 高 适应 度 有 机 体 的 染色 体 : 如 果 寺 个 有 机 体 存 
活 了 足够 长 的 时 间 ， 并 且 是 健康 的 ， 那 么 它 的 基因 将 可 能 通过 复制 延续 到 新 一 代 有 机 体 中 。 
这 一 原则 通常 称 为 “ 适 者 生存 ”( survival of the fittest), 请 记 住 ,“ 适 者 ”是 相对 的 ; 一 个 有 机 
体 只 要 相 较 于 种 群 中 其 他 有 机 体 而 言 是 适 者 ， 它 即 可 “生存 ”。 

种 群 必须 保持 多 样 性 : 似乎 是 自然 界 中 频繁 发 生 的 变异 保证 了 有 机 体 的 多 样 性 。 这 些 基 
因 变 异 经 常会 促使 一 个 对 于 物种 生存 有 用 甚至 是 关键 性 特征 的 产生 。 由 于 具有 可 能 组 合 的 更 
广泛 的 谱系 (spectrum) ， 一 个 种 群 也 更 不 易于 感染 能 够 完全 摧毁 它们 的 常见 疾病 (如 病毒 ) 或 
出 现 和 繁殖 有 关 的 其 他 问题 。 

一 旦 我 们 把 进化 分 解 为 这 些 基本 的 构件 ， 将 这 些 技巧 应 点 用 于 计算 世界 就 变 得 更 为 容易 ， 
并 且 真 正 开 始 回 着 更 流畅 、 行 为 更 自然 的 机 器 方向 前 进 。 

Holland 开始 将 进化 的 这 些 性 质 应 用 于 由 简单 数字 串 表 示 的 染色 体 。 他 首先 将 问题 编码 
为 二 进 制 串 (0 和 1 组 成 的 串 ) 来 表示 染色 体 ， 然 后 用 计算 机 生成 许多 这 样 的 “位 ” 串 来 形成 
整个 种 群 。 而 且 ， 编 制 了 一 个 可 以 对 每 个 位 串 进 行 评估 和 定 秩 的 适合 度 函数 (fitness func- 
tion) 。 那 些 被 认为 是 最 "适合 ”的 串 之 间 通 过 一 个 “交叉 ”(erossover) 例 程 交换 数据 ,生成 “后 
AFP, Holland 甚至 将 他 的 数字 染色 体 进 行 了 一 个 “变异 ”操作 ， 以 在 产生 的 子 代 中 注入 
随机 (因素 ) 来 保持 种 群 的 多 样 性 。 适合 度 函 数 代替 了 生物 世界 中 死亡 的 功能 ， 从 而 决定 哪 
些 串 足 够 好 得 以 繁殖 ， 以 及 哪些 串 将 不 再 保留 在 内 存 中 。 

程序 在 内 存 中 保持 一 定数 目的 “染色 体 ”"， 并 且 整 个 串 “ 种 群 ” 持 续 进 化 直到 它们 将 适 
合 度 函数 最 大 化 为 止 。 然 后 ， 结 果 被 解码 ， 返 回 到 原始 值 来 揭示 出 解决 方案 。John Hol- 
land 依然 是 这 一 领域 的 一 个 活跃 的 先驱 者 ， 而 且 数 以 百 计 的 科学 家 和 学 者 加 入 ， 并 将 他 们 
大 多 数 时 间 投 入 到 这 一 相对 于 传统 的 线性 规划 、 数 学 和 统计 技术 而 言 更 有 前 途 的 领域 。 
Holland 的 原始 遗传 算法 非常 简单 ， 但 是 却 非常 健壮 ， 可 以 为 多 种 问题 找到 最 佳 解决 方案 。 
许多 今天 运行 的 程序 只 对 原始 遗传 算法 进行 少量 修改 ， 便 可 以 解决 大 型 和 非常 复杂 的 现 
实 世界 问题 。 

随 着 (对 进化 计算 ) 研究 兴趣 不 断 在 学 术 圈 扩大 ， 主流 的 桌面 计算 机 也 开始 具有 强大 的 
计算 能 力 ， 类 似 微 软 Windows 和 Excel 的 标准 也 使 复杂 模型 的 设计 和 维护 变 得 更 容易 。 使 用 
实数 而 不 是 位 串 来 表示 染色 体 减 轻 了 对 其 进行 编 解 码 工 作 的 困难 。 

遗传 算法 日 益 流行 ,包括 人 研讨 会 、 书 籍 、 杂 志文 章 以 及 随处 可 见 的 咨询 顾问 。 遗 传 算法 
国际 会 议 已 经 开始 关注 (遗传 算法 的 ) 实 际 应 用 ， 这 正 是 避 开 其 他 “人 工 智 能 ”技术 而 走向 成 
熟 标志 。 许多 世界 500 强 的 公司 不 断 使 用 遗传 算法 来 解决 现实 世界 中 的 问题 ， 其 范围 从 经 纪 
公司 到 电力 企业 、 电 话 公 司 、 连 锁 饭 店 、 汽 车 制造 商 和 电话 网 络 。 事 实 上 ， 你 很 有 可 能 已 经 


分 类 和 和 回归 工法 173 


间接 使 用 了 遗传 算法 。 

例子 我 们 来 看 一 个 生物 界 很 简单 的 进化 例子 (在 很 小 的 规模 上 ) 。 这 里 ， “进化 "是 指 
一 个 种 群 中 基因 分 布 或 频率 的 任何 变化 。 当 然 ， 关 于 进化 的 一 个 非常 有 趣 的 事情 是 它 使 种 群 
不 断 适 应 它们 的 环境 。 

假设 我 们 正在 考察 一 个 老鼠 种 群 。 这 些 老 鼠 按 大 小 分 为 小 的 和 大 的 ; 按 颜色 分 为 浅 色 和 
深 色 。 种 群 由 图 9-11 所 示 的 八 只 老鼠 组 成 。 


Bae 9 
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图 9-11 初始 种 群 


一 天 ， 猫 出 现在 周围 并 开始 吃 老鼠 。 事 实证 明 ， 深 色 的 和 小 老鼠 更 难以 被 猫 找到 。 因 
此 ,不同 的 老鼠 具有 不 同 的 几率 来 衙 避 猫 足够 长 的 时 间 以 进行 繁殖 。 这 影响 了 老鼠 下 一 代 的 
特征 。 假 定 老 老鼠 在 繁殖 后 立即 死亡 ， 则 下 一 代 老鼠 看 起 来 如 图 9-12 所 示 。 
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图 9-12 一代 后 的 老鼠 











注意 ,， 大 老鼠 、 浅 色 老 鼠 ， 尤 其 是 大 的 浅 色 老鼠 很 难 存 活 足 够 长 的 时 间 来 进行 村 殖 。 这 

一 状况 又 持续 到 下 一 代 ( 如 图 9-13 所 示 ) 。 
OBE, ARR RUDY. PREYS BA UK, 因为 这 些 老鼠 相对 于 其 他 老鼠 更 适合 于 
在 这 种 环境 中 生存 。 类 似 的 ， 因 为 猫 能 吃 到 的 老鼠 越 来 越 少 而 开始 变 得 饥 俄 ， 也 许 喜欢 以 草 
为 食物 的 猫 更 能 适应 环境 ， 于 是 将 它们 喜欢 草 的 基因 传递 给 它们 的 下 一 代 。 这 就 是 “ 适 者 生 
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Fe 的 核心 概念 。 更 准确 地 说 ， 是 “生存 到 繁殖 ” 。 从 进化 的 角度 来 说 ， 在 种 群 中 作为 最 健康 
的 单身 汉 是 没有 意义 的 ， 因 为 必须 进行 繁殖 以 使 基因 影响 下 一 代 。 


9999 


图 9-13 最 终 的 种 群 






一 个 数字 化 的 例子 。 想 象 这 样 一 个 问题 ， 有 两 个 变量 ,和 了 能 产生 结果 Z WERN 
为 每 个 X 和 了 值 计算 并 绘制 2 值 ， 我 们 可 以 看 到 一 个 “地 形 ” 解 出 现 。 如 果 我 们 试图 寻找 2 
的 最 大 值 ， 那 么 函数 的 峰值 是 “好 的 " 解 ， 而 谷 值 是 “ 坏 的 ”" 解 。 

当 我 们 使 用 遗传 算法 来 最 大 化 函数 的 时 候 ， 我 们 从 随机 (如 图 9-14 中 的 黑 点 ) 生成 的 几 
个 可 能 的 解 或 方案 (scenario) 开 始 ， 而 不 是 从 一 个 开始 。 然 后 我 们 为 每 一 个 方案 计算 函数 的 


输出 并 将 每 个 方案 绘制 成 一 个 点 。 接 下 来 ， 将 这 些 方案 按 从 好 到 坏 。 我 们 保留 最 好 的 一 半 ， 
丢弃 其 他 的 方案 。 






















Gp : 
Px! AAA W 
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图 9-14 初始 种 群 


保留 的 三 个 方案 ( 选 定 的 数据 ) 都 复制 其 本 身 ， 将 方案 的 个 数 恢复 至 6 个 。 下面 是 有 趣 
的 部 分 : 六 个 方案 的 每 一 个 由 两 个 可 调 值 ( 以 X、 Y 坐标 进行 绘制 ) 构 成 。 方 案 之 间 随 机 地 互 
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相配 对 。 现 在 每 个 方案 将 它 的 第 一 个 可 调 值 和 它 的 搭档 的 对 应 值 进 行 交换 。 如 表 9-16 所 示 : 

这 一 操作 称 为 交叉 (crossing over 或 crossover), ~4 Fk 表 9-16 交叉 操作 
们 的 六 个 方案 随机 配对 并 进行 交叉 后 ,， 可 以 得 到 新 一 组 的 
方案 ， 如 图 9-15 所 示 。 

在 前 面 的 例子 中 ， 我 们 假定 原始 的 三 个 方案 cc、2& 和 
c 和 复制 的 4、B、C 配对 ， 形 成 ag8、bC、cd 对 。 这 些 方案 对 互相 交换 它们 的 第 一 个 可 调 值 ， 
相当 于 在 图 9- 14 中 交换 两 个 点 的 坐标 。 方 案 种 群 即 完 成 了 它 的 “生死 "周期 ， 生存 了 
Ge , 

注意 ， 一 些 新 的 方案 的 输出 的 位 置 可 能 比 原来 一 代 中 所 有 的 方案 都 低 ( 低 海拔 ) 。 但 是 ， 


大 多 数 方案 都 问 着 最 高 的 峰值 上 移 了 ， 体 现 出 了 进展 。 如 果 我 们 让 种 群 进化 下 一 代 ， 可 以 看 
到 下 面 的 情况 (如 图 9-15 所 示 )。 








图 9-15 种 群 向 极 值 逐步 移动 


你 可 以 在 最 后 一 代 中 看 到 方案 种 群 的 平均 性 能 是 如 何 增长 的 。 在 这 个 例子 中 ，( 性 能 ) 
可 提高 的 空间 并 不 是 很 大 。 这 是 因为 每 个 有 机 体 只 有 两 个 基因 ， 只 存在 六 个 有 机 体 ， 并 且 不 
能 产生 新 的 基因 。 这 意味 着 基因 池 有 限 。 基 因 池 是 种 群 中 所 有 有 机 体 的 所 有 基因 之 和 。 

通过 复制 更 多 生物 世界 进化 中 的 遗传 力量 ， 提 高 每 个 有 机 体 中 的 基因 数量 ， 提 高 种 群 中 
的 有 机 体 数量 ,并 允许 偶然 的 、 随 机 的 变异 以 得 到 功能 更 强大 的 遗传 算法 。 男 外 ， 不 是 简单 
地 选择 最 好 的 表现 者 进行 繁殖 ， 还 可 以 选择 更 自然 的 生存 和 繁殖 方式 ， 即 随机 的 因素 稍稍 偏 
向 于 选择 那些 表现 更 好 的 个 体 ( 即 使 最 大 和 最 强壮 的 狮子 也 可 能 遭 到 雷击 ) 。 

所 有 这 些 技巧 都 可 以 刺激 基因 细 化 ， 还 可 以 帮助 维持 基因 池 的 多 样 性 ， 并 保持 各 类 基因 
都 是 可 用 的 以 便 其 在 不 同 的 组 合 中 被 证 明 是 有 用 的 。 

典型 的 遗传 算法 如 图 9-16 所 示 。 


9.7.2 遗传 算法 


将 遗传 算法 应 用 于 某 个 具体 的 问题 ， 我 们 需要 定义 或 选择 下 面 的 五 个 成 分 : 
© 问题 潜在 解 的 遗传 表示 或 编码 方案 。 


procedure GA; { 
& = 0; : 
initialize population P(t); 
evaluate P(t); 
until (done) 


{ 
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parent_selection P(t); 
recombine P(t) 
mutate P(t); 
evaluate P(t); 
survive P(t); 





图 9-16 ”遗传 算法 


o 浴 在 解 的 初始 种 群 的 生成 方法 。 

o 作为 环境 角色 的 评估 函数 ， 对 解 根据 其 “适合 度 ” 进 行 评价 。 

© 改变 子 代 组 成 的 遗传 操作 。 

o 遗传 算法 使 用 的 各 种 参数 值 (种 群 大 小 ， 操 作 的 应 用 比例 ， 等 等 ) 。 

通过 一 个 单 变量 例子 ， 我 们 来 看 一 下 如 何 使 用 CA 来 寻找 函数 (x) 的 最 小 值 。 我 们 使 用 

一 个 二 元 向 量 作 为 染色 体 来 表示 单 变量 x 的 实 值 。 向 量 的 长 度 依赖 于 需要 的 精度 。 

染色 体 编码 : 染色 体 应 以 某 种 方式 包含 关于 其 所 表示 的 解 的 信息 。 最 常用 的 编码 方法 是 

二 进 制 串 。 染 色 体 如 图 9-17 所 示 。 


染色 体 1 1101100100110110 
染色 体 2 1101111000011110 


图 9-17 使 用 二 进 制 串 对 变量 编码 


当然 ， 还 有 很 多 其 他 的 编码 方法 。 这 主要 和 要 解决 的 问题 有 关 。 例 如 ， 可 以 用 整数 或 实 
数 编码 ， 有 时 用 某 种 置换 排列 编码 也 很 有 用 。 

初始 种 群 : 初始 化 过 程 非常 简单 : 我 们 随机 地 生成 给 定 长 度 的 染色 体 ( 二 进 制 码 ) 种 群 。 

评估 : 对 代表 染色 体 的 二 元 向 量 的 评估 函数 等 价 于 初始 函数 f(x) ， 其 中 给 定 染色 体 表 
示 对 应 实数 值 x 的 二 进 制 码 。 

SES: 在 交 符 阶段 ， 基 于 前 一 迭代 中 种 群 的 评估 选择 出 新 的 种 群 。 个体 的 选择 取决 于 其 
目标 函数 值 或 适合 度 值 。 在 选择 阶段 有 不 同 的 方案 可 以 使 用 。 

遗传 操作 一 一 交 义 和 变异 : 交叉 从 父母 染色 休 中 选择 基因 来 生成 新 的 子 代 。 进行 这 一 操 
作 的 最 简单 方式 是 随机 选 定 一 个 交叉 点 ;从 第 一 个 父母 拷贝 交叉 点 之 前 的 所 有 基因 ， 从 第 二 
个 父母 拷贝 交叉 点 之 后 的 所 有 基因 上。 

并 不 需要 将 交叉 应 用 于 选取 的 所 有 个 体 对 。 是 否 进行 交叉 取决 于 一 个 指定 的 概率 ， 称 为 
交 文 概率 (PC) ， 其 值 通常 在 0.5 ~ 工 之 间 。 

图 9-18 显示 了 一 个 交叉 过 程 (| 是 交 蚌 江 


11011 |00100110110 
11011 |11000011110 


11011 |11000011110 
11011 |00100110110 


图 9-18 父 串 的 交叉 产生 子 找 
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还 可 以 用 其 他 方法 来 进行 交 又 。 例 如 ,我们 可 以 选择 更 多 的 交叉 点 。 交 叉 可 能 非常 复杂 
并 且 依 赖 于 染色 体 的 编码 。 对 特定 问题 ， 交 叉 ( 方 法 ) 可 以 提升 遗传 算法 的 性 能 。 
变异 : 交叉 完成 之 后 就 进行 变异 。 这 是 为 了 防止 种 群 的 所 有 解 都 落 和 人 待 解 问题 的 局 部 最 
AR. 变异 随机 地 改变 新 的 子 代 。 对 二 进 制 编码 来 说 ， 我 们 可 以 随机 选择 几 位 从 1 变 为 0 或 
从 0 变 为 1( 参 见 图 9-19)。 


原始 子 代 1 1101111000011110 
原始 子 代 2 1101100100110110 


变异 的 子 代 1 1100111000011110 
变异 的 子 代 2 1101101100110100 





图 9-19 通过 翻转 进行 变异 (变异 的 位 置 突出 显示 ) 


变异 依赖 于 编码 以 及 交叉 。 例如 ， 当 我 们 进行 置换 编码 时 ， 变 异 可 能 是 交换 了 两 个 
基因 。 

本 书 光盘 中 包含 了 一 个 applet( 取 自 互联 网 )。 它 对 上 述 的 概念 进行 了 说 明 。 图 9-20 大 
这 个 applet 的 截图 。 hi 
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图 9-20 applet 截图 


9.7.3 使 用 遗传 算法 进行 机 器 学 习 


优化 问题 是 遗传 算法 最 常见 的 应 用 领域 之 一 。 一 般 而 言 ， 优 化 问题 试图 通过 决定 生产 过 
程 中 所 选择 特征 的 值 来 确定 一 个 解 ， 从 而 将 组 织 的 利润 最 大 化 或 使 生产 成 本 最 小 化 。 遗 传 算 
法 应 用 的 另 一 个 典型 领域 是 发 现 一 个 给 定 复杂 系统 的 输入 到 输出 映射 ， 这 正 是 所 有 机 做 学 习 
算法 都 试图 解决 的 一 类 问题 。 

输入 到 输出 映射 的 基本 思想 是 生成 一 个 合适 形式 的 函数 或 模型 ， 该 函数 或 模型 一 般 来 说 
要 比 通常 由 一 个 输入 -输出 样本 集 表示 的 原始 映射 简单 。 我 们 认为 函数 最 佳 地 描述 了 这 一 映 
射 。 对 “最 佳 ” 的 度量 取决 于 具体 应 用 。 常 用 的 度量 有 函数 的 准确 性 、 鲁 棒 性 和 计算 效率 。 
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一 般 而 言 ， 确 定 一 个 满足 所 有 条 件 的 函数 并 非 易 事 。 因 此 ，GA 可 用 来 确定 一 个 “好 的 ” 函 
数 ， 该 函数 可 以 成 功 地 应 用 于 各 种 应 用 ， 如 模式 识别 、 控 制 和 预测 等 。 映 射 的 过 程 可 以 是 自 
动 的 。 使 用 GA 技术 ,这 种 自动 化 代表 了 归纳 机 器 学 习 模 型 形成 的 男 一 种 方法 。 
一 个 经 典 的 例子 是 来 自 “Palisade; com” ( www. palisade; com) 的 Evolver 电子 数据 表 求 解 器 
中 的 “交易 规则 发 现 器 ”( trading rule finder), Evolver 是 基于 电子 数据 表 ( Microsoft Excel) 求 解 
AHJ GA， 可 用 来 解决 各 种 工程 优化 问题 ， 包 括 数据 挖 气 问题。 图 9-21 给 出 了 交易 规则 发 现 
鲁 的 截图 。 这 个 Excel 电子 数据 表 包 含 本 书 光 盘 中 。 感 兴趣 的 读者 可 以 下 载 该 软件 (免费 一 
个 月 ) 并 运行 它 。 本 书 光 盘 中 介绍 了 如 何 使 用 这 个 软件 。 
交易 规则 发 现 器 基于 历史 数据 集 寻 找 投资 的 最 佳 规则 ， 


EES E DE ME an E ae N ae Me Se ES eS Eee CR ae Se, Me IP AR a ae aes eae 
和 yore tae dots Pe Eas ae Beet i ae ee he ee K AEE Be 
E E AE A EN EE ES e A EAE P A E A sas See PES, OR cae SK: 


Ye 





Starting $ | 310000 


图 9-21 使 用 Evolver 的 交易 规则 发 现 器 


习题 
1. 如 图 9-22 所 示 ， 车 辆 的 属性 为 颜色 、 车 型 和 产地 ， 变 量 “ 被 窃 ” 的 值 为 是 或 否 。 预 测 属 性 
为 红色 、SUV( 运 动 型 多 功能 车 ) 和 国产 的 汽车 是 否 会 被 窃 。 
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分 类 和 回归 党 法 73 
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U 
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假定 有 如 图 9-23 给 出 的 训练 样本 。 属性 F, 取 值 为 a、5 Ailes; 属性 F, 为 布尔 值 ; 属性 F, 
的 取 值 为 [0，1 ] 之 间 的 实数 值 。 
1) 朴 素 贝 叶 斯 系统 如 何 对 如 下 测试 样本 分 类 ? (将 数值 特征 等 分 为 三 个 区 间 。) 
F, =¢ F, =p 3F 2008 
7) 讨论 2 最 近邻 算法 如 何 对 上 题 的 测试 样本 进行 分 类 ， 
3 ) 给 出 ID3 如 何在 上 述 训练 样本 集 上 确定 决策 树 的 根 节点 的 计算 过 程 。 





图 9-23 习题 2 数据 的 训练 样本 (合成 数据 ) 


. 假设 希望 识别 一 个 公司 产品 的 好 坏 。 可 以 对 每 个 产品 的 三 个 数值 属性 P, 、P, 和 P, 进行 


度量 。 随 机 地 从 传送 带 上 取 和 若干 产品 进行 全 面 测试 以 确定 是 否 合格 ， 获 得 如 图 9-24 所 示 
的 结果 。 
1 ) 说 明 3- 最 近邻 算法 如 何 对 下 述 新 的 样本 进行 分 类 。 

PASS Fiss 1 Ps =O 
2) 说 明 如 何 应 用 朴素 贝 叶 斯 算法 解决 这 一 问题 。 根 据 贝 叶 斯 算法 ， 上 题 中 的 样本 更 可 能 
是 一 个 合格 产品 还 是 不 合格 产品 ? 





图 9-24 习题 3 数据 的 训练 样本 (合成 数据 ) 


. 图 9-25 所 示 的 样本 数据 集 包括 了 12 个 顾客 的 档案 及 其 对 新 的 促销 邮件 做 出 的 购买 或 不 购 


KRMK: 
顾客 使 用 高 速 网 络 连 接 


‘ONO 人 人 DD- 





1K 否 
低 是 
低 否 
低 是 
H 否 
中 是 
R 10 否 
中 是 
高 否 
A 是 
高 否 
高 是 


图 9-25 习题 4 的 数据 集 
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请 预测 一 个 新 的 顾客 的 购买 决定 ， 其 年 收入 为 15000000， 使 用 512KB 的 调制 解 调 器 ， 并 
HÆ IIM Ahmedabad 大 学 主 修 商 业 管理 学 位 。 

5. KR 9-17 给 出 了 银行 的 一 个 样本 数据 。 第 二 列 记 录 了 专家 对 每 家 银行 财务 状况 的 判断 。 
两 列 给 出 了 银行 财务 分 析 中 常 罗 的 比率 值 。 


表 9-17 银行 财务 状况 


样本 财务 状况 (7y) 总 贷款 和 租约 /总 资产 (x ) 总 开销 /总 资产 (x,) 
1 1 0. 64 . 0. 13 
2 1 1.04 0.1 
3 1 0. 66 0.11 
4 1 0.8 0. 09 
5 1 0. 69 0.11 
6 1 0.74 0.14 
7 1 0. 63 0. 12 
8 1 0. 75 0. 12 
9 1 0. 56 0. 16 
10 1 0. 65 0. 12 
11 0 0. 55 0.1 
12 0 0. 46 0. 08 
13 0 0. 72 0. 08 
14 0 0. 43 0. 08 
15 0 0. 52 0. 07 
16 0 0. 54 0. 08 
17 0 0.3 0. 09 
18 0 0. 67 0. 07 
19 0 0.51 0. 09 
20 0 0. 79 0. 13 





财务 状况 =1 财务 状况 差 的 银行 
=0 财务 状况 好 的 银行 
使 用 XLminer 制定 逻辑 斯 详 回 归 表 达 式 。 
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SIO ”支持 向 量 机 


10.1 a= 


支持 向 量 机 (SVM) [1，2] 是 最 近 出 现 的 数据 挖掘 实践 者 使 用 的 工具 。 它 们 是 新 一 代 的 
基于 统计 学 习 理 论 的 学 习 系统 。SVM 在 两 个 方面 非常 有 用 。 首 先 ，SVM 学 习 基 于 优美 、 简 
单 的 思想 ， 并 且 对 从 实例 中 学 习 什 么 提供 了 非常 清晰 直观 的 解释 。 其 次 ， 在 文本 分 类 、 手 写 
文字 识别 、 图 像 分 类 、 生 物 序 列 分 析 等 实际 应 用 中 ， 它 具有 非常 好 的 性 能 。 

SVM 属于 监督 学 习 算法 ， 在 这 类 算法 中 ， 为 学 习 机 提供 一 个 样本 集 ( 或 称 为 输入 ) 及 其 
相应 的 分 类 标识 (或 称 为 输出 值 )。 与 决策 树 二 样 ， 样 本 以 属性 向 量 的 形式 提供 ， 所 以 输入 
空间 是 R 的 子 集 。 

SVM 构建 了 一 个 分 隔 两 类 的 超 平 面 (这 也 可 以 扩展 到 多 类 问题 ) 。 在 构建 的 过 程 中 ， 
SVM 算法 试图 使 两 类 之 间 分 隔 达到 最 大 化 ， 如 图 10-1 所 示 。 


应 该 使 用 哪 条 直线 ? 


No Yes 
No 


图 10-1 选择 分 类 的 最 佳 平面 


以 一 个 很 大 的 边缘 分 隔 两 个 类 可 以 使 期 望 泛 化 误差 最 小 化 。“ 最 小 化 泛 化 误差 "的 含义 
是 : 当 对 新 的 样本 (类 值 未 知 的 数据 点 ) 进行 分 类 时 ， 基 于 学 习 所 得 的 分 类 器 ( 超 平面 ) ， 使 
得 我 们 (对 其 所 属 分 类 ) 预测 错误 的 几率 被 最 小 化 。 直 觉 上 ， 这 样 一 个 分 类 器 实现 了 两 类 之 
间 的 分 离 边缘 最 大 化 。 图 10-2 解释 了 “最 大 化 边缘 ”的 概念 。 和 分 类 器 平面 平行 、 分 别 穿 过 
数据 集中 的 一 个 或 多 个 点 的 两 个 平面 称 为 边界 平面 (bounding plane)。 这 些 边 界 平面 的 距离 
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称 为 边缘 (margin) ， 而 “通过 SVM 学 习 ” 的 含义 是 找到 最 大 化 这 个 边缘 的 超 平面 。 
支持 向 量 





图 10-2 一 个 最 大 间隔 分 类 器 


落 在 边界 平面 上 的 (数据 集中 的 ) 点 称 为 支持 向 量 (support vector) 。 这 些 点 在 这 一 理论 中 
的 作用 至 关 重 要 ， 故 称 为 “支持 向 量 机 ”。 其 中 “机 器 ”的 含义 是 算法 。 

Vapnik[2，4，5] 证 明 : 如 果 训练 向 量 被 一 个 最 佳 超 平面 准确 无 误 地 分 隔 ， 那 么 在 测试 
样本 上 的 期 望 误差 率 由 支持 向 量 的 个 数 和 训练 样本 的 个 数 之 比 来 界定 。 由 于 该 比值 和 问题 的 
维度 无 关 ， 因 此， 如 果 可 以 找到 一 个 较 小 的 支持 向 量 集 ， 就 可 以 保证 得 到 很 好 的 泛 化 能 力 。 

以 图 10-3 所 示 的 数据 点 为 例 ， 我 们 可 以 简单 地 将 误 分 类 的 个 数 最 小 化 ， 同 时 针对 那些 
锌 正确 分 类 的 样本 来 使 间隔 最 大 化 (来 进行 分 类 ) 。 也 就 是 说 ， 在 SVM 训练 算法 中 是 允许 有 
训练 误差 的 。 





图 10-3 具有 训练 误差 的 线性 分 类 器 
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如 图 10-4 所 示 ， 在 有 些 情形 下 ， 被 聚 类 成 两 类 的 点 并 不 是 线性 可 分 的 。 也 就 是 说 ， 如 
果 我 们 尝试 使 用 线性 分 类 器 ， 就 必须 忍受 很 大 的 ”训练 误差 ”。 在 这 种 情况 下 ， 我 们 将 数据 
非 线 性 映射 到 称 为 特征 空间 (feature space) 的 更 高 维 空间 下 ， 使 其 线性 可 分 。 为 了 区 分 这 两 
个 空间 ， 我 们 称 数据 点 的 原始 空间 为 输入 空间 (input space). ”特征 空间 的 超 平 面 对 应 于 原 
输入 空间 的 一 个 非 线性 的 分 离 曲 面 。 因 此 我 们 称 之 为 非 线 性 分 类 器 (nonlinear classifier), B 
DLAI 10-4, 


pa 
特征 
& 





在 低 维 空间 比较 复杂 在 较 高 维度 空间 比较 简单 


图 10-4 ” 非 线性 分 类 器 
图 10-5 进一步 解释 了 到 特征 空间 的 非 线 性 映射 过 程 。 注 意 ， 二 维 输入 点 (xi ，x;) ”被 映 





输入 空间 和 特征 空间 
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射 成 三 维 点 (y, ，y,，Y3) = (4, 92, /2x,2.)", 到 这 里 ， 读 者 可 能 会 觉得 这 个 过 程 需要 很 
大 的 计算 量 ， 当 数据 本 身 是 高 维 的 ， 而 需要 将 其 映射 到 更 高 维 (可 能 是 无 限 维 ) 的 特征 空间 
中 时 尤其 如 此 。 然 而 ， 稍 后 我 们 可 以 看 到 ， 为 了 得 到 超 平 面 分 类 器 ， 没 有 必要 做 任何 显 式 的 
到 高 维 空间 的 映射 。 所 有 的 计算 将 在 输入 空间 本 身 完成 。 

此 外 ， 存 在 一 些 可 能 产生 不 同 特征 空间 的 映射 。 问 题 是 对 给 定 的 分 类 问题 ， 应 该 采用 哪 
个 映射 。Vapnik[2] 回 答 了 这 一 问题 ， 必 须 找到 使 泛 化 误差 最 小 化 的 那个 映射 。 

文献 中 有 许多 SVM 算法 [6，10] ， 并 且 每 年 都 会 出 现 一 些 新 的 算法 。 本 书 无 法 对 所 
有 算法 和 其 实现 进行 详尽 的 讨论 。 因 此 我 们 只 讨论 经 典 的 SVM 方法 ， 而 不 对 其 实现 细节 
和 那些 容易 实现 的 变种 (简单 的 方法 ) 进行 介绍 5 Mangasarian[ 11，12 ] 的 算法 就 是 这 样 的 
变种 算法 , 任何 计算 机 专业 的 学 生 都 可 以 轻松 实现 。 这 些 算法 甚至 可 用 微软 的 Excel 电子 
表格 来 实现 。 在 下 一 节 ， 我 们 使 用 一 些 例子 来 讨论 这 些 算法 的 理论 。 经 典 SVM 的 推导 过 
程 可 参见 附录 。 


10.2 线性 支持 向 量 机 的 基本 思 ; 


符号 约定 : 向 量 和 和 矩阵 用 粗 体 表示 。z7 维 空间 R 中 的 两 个 向 量 x 和 y 的 内 积 用 ry 表 
Wo x 的 范 数 用 ||x|| 表示 。 
如 上 一 节 所 述 ， 支 持 向 量 机 分 类 器 是 基于 超 平面 的 。 


wx-y=0 weR” (10:1) 
RP w=(w, w, w,) WH yeR, 
FEDE ARS PR RE : 
f(x) = sign(w'x —y) | 40:2) 


这 里 zx = (xi %, X3, t, X,) ten ELAN R 中 的 一 个 向 量 。 
在 二 元 问题 中 ， 决 策 平面 由 下 式 给 出 : 
Wi x, 十 202%2 ~y =0 
| 该 平面 可 通过 求解 一 个 约束 的 二 次 优化 ( constrained quadratic optimization ) 问题 而 唯一 确 
定 。 其 解 w 可 通过 位 于 边缘 (margin) 上 的 训练 模式 的 一 个 子 集 来 展开 ( 见 图 10-2)。 


| 
201 Xi 21 Xk 
W2 X12 by Xi 
w= =a, +a, + + Qo 


这 一 训练 模式 的 子 集 称 为 支持 向 量 ， 它 包含 关 于 分 类 问题 的 所 有 相关 信息 。 省 略 计算 的 细 
方 ， 我 们 需要 强调 一 下 这 个 算法 的 一 个 关键 性 质 : OLE ERAS ER > 


Ax) = sign(w"'x =y) = sign( Da, (atw) Ey) (10.4) 


都 只 依赖 于 模式 间 的 内 积 。 因此 我 们 可 以 严格 地 将 问题 推广 到 非 线 性 的 情况 。 
下 面 我 们 讨论 图 10-6 所 示 的 两 个 边界 超 平面 wx-y=1 和 wx-y= -1。 
边界 超 平面 wx —y =1 到 原点 的 距离 是 | -y-1|/ lwl; 而 wx -y= -1 到 原点 的 距 
离 是 | -y+1|/ 中 w]。 所 以 ,两 个 边界 超 平面 的 距离 是 2/ | w | 。 同时 注意 ,向 量 是 和 两 
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个 趟 平面 垂直 的 。 最 大 化 距离 2Z || w APSF BERR, “BIS | w |) <5 ww, 


| 2 Il wil 
r, © M. 
S iar tind “és 
ret! SANG Me g y KAHA, 的 样本 
来 自 A- | D “者 
WHA]. ae 
y Ki "up PHN i 
if “tess A | | 
p vai wW e y K KA $ . 
Fe 


{x/w'x~y=—1} 
{x/w'x—y=+0} 


E 10-6 RAE 
更 形式 地 ， 我 们 试图 最 小 化 了 ww。 
在 输入 空 


s 间 中 ， 如 果 数 据 不 是 线性 可 分 的 ， 支 持 向 量 机 通过 非 线 性 映射 $9: RF HA 
据 映 射 到 某 个 其 他 点 积 空 间 ( 称 为 特征 空间 )。 然 后 在 中 执行 上 述 线性 算法 。 这 只 
BAAR (x) 中 (x)( 即 可 完成 映射 )。 在 文献 中 ， 这 一 函数 称 为 核 (kernel) 
= 中 (zx) 中 (x) 表示 。 

在 特征 空 


和 需 计 算 
,我 们 用 K(x, y) 


s 间 中 ， 我 们 寻找 一 个 进行 线性 分 离 超 平面 
w d(x) y=0 weF 
使 得 最 大 化 地 分 隔 两 个 类 。 


注意 ， 在 线性 情况 下 ,，w 和 x 的 维 数 相同 。 现 在 w KERGE plx) 的 维 数 。 
同样 ， 可 以 证 明 w = D aglr) ， 其 中 上 是 支持 向 量 个 数 。 决 策 函数 可 以 表达 为 


f(%) = sign(w'o(*) =y) = sign (Das $x) $x) - y) (10.5) 


WMR F ERIR, WHA plx) 由 (z) 的 开销 很 大 。 然 而 ， 存 在 一 些 简单 的 核 ， 可 进 
行 快速 计算 。 一 个 很 好 的 例子 是 多 项 式 核 ; K(x, y) = (xy) 
对 d=2 和 x, yeR , 有: 
(ay =| (xi; So) (Tre Y2) J: = [Yi KAya] + 2x9, Aa + (mo), 


=| Cig Bg Way Xe) (Xs Yo’ W291 ¥2)] = 中 (zi) (y) 
AE, p Hi (x, x ) 映射 到 [ (xi， E ORE 
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这 就 是 所 谓 的 核 技 巧 (kernel trick), 为 了 进行 计算 ， 我 们 实际 上 并 没有 把 数据 映射 到 特 
征 空间 。 计 算 在 输入 空间 本 身 进行 。 在 这 个 例子 中 ，(x'y) EF pla) PO). ry 的 值 是 
标量 ,并且 计算 后 ,我 们 只 要 再 求 它 的 平方 即 可 得 到 四 (x;)'$(y) 的 值 。 

求解 特征 空间 FF 中 训练 样本 子 集 ( 称 作 支 持 向 量 ) 的 线性 组 合 系数 w 的 问题 可 以 转换 成 
一 个 求解 二 次 规划 问题 。 转 换 细 节 见 附录 。 训 练 算法 采用 序列 最 小 优化 法 (Sequential Mini- 
mal Optimization, SMO), 一旦 使 用 SMO 算法 得 到 支持 向 量 [9] ， 新 数据 点 x 的 分 类 只 需要 


HA (Zall) pla) -y) ), ， 其 中 ;是 支持 向 量 的 下 标 。 
除了 多 项 式 核 ， 实 践 中 还 使 用 径 向 基 图 数 (radial basis function ) 核 如 
K(x, y) iy (10.6) 


20° 
标准 SVM 的 推导 可 视 为 二 次 优化 问题 并 以 拉 格 朗 日 乘 子 (Lagrangian multipliers) 求解， 
详 见 附录 。 
10.3 软 边缘 SVM: 线性 核 


考虑 图 10-7 所 示 的 问题 : FE n 维 实数 空间 R" 中 对 普 个 点 进行 分 类 ， 以 于 xm 的 矩阵 A 
和 mxm 的 对 角 阵 D 表示， 其 中 履 的 对 角 线 上 的 +1 或 -1 根据 对 应 的 点 0; 属于 类 4 ,或 
A _ 确 定 。 


x'w=y +1 





分 离 平 面 : x'w=y 
图 10-7 具有 软 边 缘 ( 边 界 ) 的 SVM 
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对 于 这 个 问题 ， 使 用 线性 核 的 标准 SVM 的 公式 以 如 下 二 Po v T 给 出 : 


1 
min ve "y +—w'w 
yy) 2 


满足 D( Aw -ey) +y>e 
三 0 (10.7) 
其 中 A 是 一 个 m x 寺 数据 矩阵 ，e 是 全 为 1 的 m x1 列 向 量 , y 是 m x1 误差 向 量 。D 是 mxn 
对 角 阵 ， 其 元 素 为 +1 或 -1( +1 表示 样本 属于 4, ，-!1 表示 样本 属于 4_)。v 是 决定 边缘 
和 误差 相对 重要 性 的 参数 。 
我 们 可 以 通过 一 个 例子 来 解释 这 个 过 程 。 
BLA, Emam, O08) CR LSI 5, 18) A 表示 点 全 (FE Ley, (3; 
4.3) (253, 2.8). 
Ww =(w,, w) Aly 定义 分 隔 这 些 点 的 超 平面 wxi +wx -y =0。 如 果 假 定 这 些 点 是 线性 
可 分 的 ， 则 设 定 约束 使 得 任意 点 不 能 落 于 边界 平面 wx + wx. -y=1 和 wixi +w 一 y= -1 
定义 的 区 间 中 。 相 应 的 ， 我们 有 如 下 约束 : | 
lw, + 0. 8w, -y21 
3w, + 2. 5w, -y21 
2. 5w, + lw, -y21 
lw, + 1. 8w, -ys -1 
3w, + 4.50, -y< -1 
2. 5w, + 2. 8w, -y< -1 
如 果 并 非 所 有 点 都 是 线性 可 分 的 ， 则 支持 训练 误差 ， 换 句 话说， 就 是 允许 一 些 点 落 于 边 
寞 超 平面 之 间或 越过 为 一 个 边界 超 平面 。 当 类 4 NA xi(xir xa) 落 于 边界 超 平面 之 间 
或 越过 边界 超 平面 ( 落 于 4 _ 的 区 域 中 ， 即 wx -y 二 -1 界定 的 区 域 ) 时 ,我们 在 不 等 式 的 
左边 加 上 一 个 正 量 y,， 使 其 满足 约束 wx -y> 41, WE, RITA wx -y ty, +1。 类 似 
的 ， 对 属于 4 类 中 落 于 边界 超 平面 间或 4, 区域 中 的 点 , 我 们 在 不 等 式 左 边 减 去 一 个 正 量 
Yi。 对 这 样 的 点 ， 不 等 式 表 达 为 wx; -yy;<*-1。 对 所 有 其 他 点 ,假定 增加 的 量 y, 的 值 
为 0. 
对 于 我 们 考察 的 例子 ， 其 约束 为 : 
lw, + 0. 8w, = y+y,21 
3w, + 2.5w; -y +y, >l 
2.5, + lw, -y +y, 21 
lw, + 1.8w, -y-y,< -1 
3w, + 4.5w, -y -y; S -1 
2. 5w, + 2. 8w, -y -ys -1 
Xf A, 中 样本 ， 在 不 等 式 两 边 乘 以 1， 对 4 _ 中 的 样本 乘 以 - 1， 我们 有 : 
1(w, +0. 8w, -y) +y,21 
1(3w + 2. 5w, - y) +y,21 
1 (2. 5w, +1w, =y) +y, >l 
-1(lw +1. 8w, -y) -y,21 
-1(3w, +4. 5w, - y) - y; 21 
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—1(2.5w, +2. 8w, =y) -¥,21 


用 和 矩阵 形式 表达 为 : 
[es ie a 1 0.8 1 Hry 
O01 0 AENT s u i li 
ro Mn e al a am en (Fey i T en, 0 Mol | 
afie 
0 Ge aoe o e Bn Td Ta G: 
o0 g —1: Me eS 1 palin 
的 省 了 1 iad 


D(Aw -ey) +yZze 
y 宇 0 

在 式 (10.7) 中 , n 是 一 个 标量 并 且 ey 是 误差 和 。 因 此 ve 了 表示 了 所 允许 的 误差 的 总 
量 。 相对 于 w M y 来 最 小 化 very + 了 w'w 可 以 将 边界 平面 间 的 距离 最 大 化 ， 并 且 使 越过 对 应 
边界 平面 的 点 数 最 小 化 。 因 为 目标 函数 是 二 次 的 ， 因 此 求解 该 问题 需要 二 次 规划 。 标 准 算 法 . 
是 SMO @3£[9], SVM" (http; //svmlight. joachims. org/ ) 是 一 个 可 用 于 求解 上 述 QP( Quad- 
ratic Qrogramming， 二 次 规划 ) 问题 的 开源 软件 包 。 

如 前 所 述 ， 解 w 可 展开 为 : 

w= > aX, 
并 且 最 终 的 决策 函数 为 : 
f(x) = sign(w'x - y) = sign ( a a, (x!x) -y] 

一 旦 我 们 确定 了 充当 支持 向 量 的 数据 点 ， 可 以 很 容易 求 得 yo 

在 下 一 节 中 ， 可 以 看 到 无 需 二 次 规划 求解 的 SVM 方法 。 该 方法 由 Mangasarian[ 11, 12 | 
提出 。 


10. 3. 1 线性 SVM 的 线性 规划 公式 表示 


考察 下 面 SVM 公式 表示 
min ve'y + aa 
(wy,y) 2 
满足 D(Aw -ey) +yze 
y=0 (10. 8) 
Mangasarian| 11, 12 ] 证 明 下 式 
ines 
满足 D(Aw -ey) +y 三 6 
y>0 (10.9) 
给 出 和 原来 公式 几乎 完全 相同 的 结果 。 
新 的 公式 等 价 于 
Min Y 


满足 约束 
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WX WN te ry ty, Zl 
—1( WX kwita teny) $y, 21 


该 式 可 使 用 电子 数据 表 求 解 器 (spreadsheet solver) 5k Matlab 轻松 求解 。 式 中 的 变量 是 w、 
y 和 y。 一 旦 通过 求解 上 述 线性 规划 问题 得 到 w、y 的 值 ， 分 类 器 公式 可 写 为 : 
f(x) =sign(w x -y) 
重要 提示 : 为 了 得 到 更 好 的 分 类 结果 , 在 使 用 SVM 前 一 定 要 规范 化 每 个 变量 ， 即 使 所 
有 变量 都 在 [0，!1] 或 [ -3，3] 之 间 变 化 。 


10.3.2 有 训练 误差 的 SVM: 非 线 性 核 
式 (10.9) 所 定义 问题 的 非 线性 形式 可 由 下 式 给 出 : 


满足 约束 | 
D(K(A, A')u-ey) +y>e 

y>0 (10. 10) 
其 中 , K(A, 4 ) 是 非 线 性 核 函数 。 变量 为 向 量 &、y 和 y。 对 于 二 阶 多 项 式 核 ,，K(A,， A’) 
可 以 用 (44 +1) 计算 。 请 注意 ，(447 +1)? 的 意思 是 对 和 矩阵 44 的 每 个 元 素 加 1， 然 后 对 
和 矩阵 的 每 个 元 素 求 平方 。 结 果 是 一 个 xm 的 和 矩阵， 其 中 m 是 数据 点 的 个 数 。 向 量 u 的 元 
素 基 本 上 是 拉 格 朗 日 乘 子 。 公 式 的 原理 在 附录 中 给 出 。 公 式 中 的 变量 为 向 量 w、y 和 y。 一 
日 通过 求解 线性 规划 问题 得 到 u, y 的 值 ， 分 类 器 表达 为 : 

f(x) =sign( K(x", A')u-vy) 


10.4 ”邻近 支持 向 量 机 


最 近 ， 实 现 了 一 种 更 为 简单 的 分 类 器 ， 邻 近 支 持 向 量 机 ( Proximal Support Vector Ma- 
chine, PSVM)[11, 12], PSVM 将 每 个 点 归 类 于 (输入 空间 或 特征 空间 中 ) 两 个 尽 可 能 “ 推 
开 的 平行 平面 中 最 近 的 一 个 。 这 种 方法 导致 通过 求解 一 个 线性 方程 组 ， 产 生 线性 或 非 线 性 
分 类 器 的 快速 、 简 单 算 法 。 

所 的 隔离 ( 式 (10.7) 中 的 优化 问题 ) 被 下 面 的 问题 替代 : 


ming > [ly + (Ww +7) 


满足 D( Aw -ey) +y =e (10,11) 

图 10-8 给 出 了 该 公式 的 几何 解释 。 

对 于 y 并 没有 非 负 的 约束 ， 因 为 y 现在 表示 点 与 穿 过 其 所 属 类 (A ,或 A_) 的 数据 簇 
中 心 的 平面 的 偏差 (以 1/ || w | 度量 )( 见 图 10-9)。 请 注意 ,误差 向 量 y 的 欧式 范 数 而 
不 是 1 - 范 数 被 最 小 化 ， 并 且 边 界 平面 间 的 边缘 相对 于 w 的 方向 和 y 与 原点 的 相对 位 置 
而 言 被 最 大 化 了 。 

如 [11] 说 明 ， 大 量 实践 表 明 这 种 方法 和 式 (10. 7) 定义 的 经 典 方法 一 样 好 ， 并 有 更 多 的 
优势 ， 如 目标 函数 的 强 凸 性 。 该 方法 的 核心 思想 是 使 计算 简单 ， 但 在 式 (10. 11) 中 最 基本 的 

改变 是 不 等 式 约 束 变 成 了 等 式 约束 。 
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分 离 平 面 : x'w- 7 =0 
图 10-8 ”邻近 支持 向 量 分 类 





图 10-9 PSVM 中 的 y; 的 解释 


即使 是 非常 简单 的 修改 也 极 大 地 改变 了 优化 问题 的 本 质 。( 现在) 我 们 可 以 根据 数据 对 
问题 明确 给 出 准确 解 。 由 于 其 组 合 特点 ， 这 在 以 前 的 方法 中 是 无 法 实现 的 。 图 10-7 War 
式 (10.11) 所 定义 的 方法 的 几何 意义 ， 可 以 解释 如 下 。 平 面 x w -y= +1 不 再 是 边界 平面 ， 
而 可 以 被 认为 是 “邻近 ”平面 ， 每 个 类 的 点 在 它们 周围 聚集 ， 并 且 两 个 邻近 平面 的 距离 被 目 
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标 函 数 中 的 x"w +y 项 分 隔 得 尽 可 能 远 ， 该 项 即 是 属于 R"'' 的 (w，y) 空 间 中 的 两 邻近 平面 
的 欧式 范 数 距离 的 倒数 。 然 而 ， 这 一 解释 基于 的 思想 并 非 是 最 大 化 边界 ( 即 两 个 平行 边界 平 
面 间 的 距离 ) 这 一 支持 向 量 机 的 核心 特征 。 

由 式 (10. 11) 所 表达 的 等 式 约束 问题 的 KKT( Karush- Kuhn- Tucker) 充 要 优化 条 件 可 通过 
将 关于 (w，y，y，z ) 的 拉 格 朗 日 的 梯度 置 零 而 获得 。 
a 
6 


2 
] 
Lw ya 0) => My +> -u"[D(Aw-ey) +y-e] (10.12) 


FCP u 是 拉 格 朗 日 乘 子 。 
L=(v/2) + (yp +y +y + +y) + (1/2) (wi + wz ti? +- +02 +y) + 


-u (Da (Anw, +Ayw, + +A, TY) x, -1) 


In™ n 














— u, ( Dy (Anw, + Ayw,+ +42 一 ?9 +y -1) 


-u| Da (Anii +A,,w, +++ +A,,w, —y) +y, -1] 


Xt w RS, 4 
0L/dw, =w, —u,D,,A,, —u,D,A,, -— +++ —u,,D,A,, =0 
类 似 地 ， 
oL/ dw, =w, — wi DiAis —u,Dy,Ay —** — uD,,A,, =0 
并 且 
oL/ ðw, =w, -u DnA —U,D,A,, — +++ —u,,D,,,,A,,, =0 
这 m 个 等 式 可 以 用 向 量 形式 表达 为 
Wl Au Aa A MD O 0 0 u 
W> Lo UA 
W,|}—| Ais An a AL? O O Aha e O u, | =0 
W, An Aan e l ALR 0 O a DA e. 
w -4 Du =0 (10. 13) 


X y RSIFCHRS TS, 8l 


yn? +u,D,, +u Da ++: +u,D,,, =0 


用 和 矩阵 形式 写 为 : 
Ba Q 0 W 
oDe 0: gee i 
yi 0 D es ee 
0 0 0 Do Hu. 
或 
y +e Du=0 . (10. 14) 


对 y(i=1，2，…，m) 求 导 ， 并 令 其 等 于 零 ， 得 到 : 
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syy -uj =0 
ace -u =0 
Gb a 
可 以 用 和 矩阵 形式 表示 为 : 
vy —u =0 : (10. 15) 
BUS, Jhun wm, y wi 求 导 并 令 其 等 于 零 ， 得 到 m 个 等 式 ， 其 矩阵 形式 表达 为 
D( Aw -ey) +y-e=0 (10. 16) 
收集 所 有 方程 ， 得 到 KKT 条 件 ， 可 以 表达 为 : 
w —-A'Du =0 (10. 17a) 
y+e Du =0 (10. 17b) 
vy -—u=0 (10. 17c) 
D(Aw -ey) +y -—e =0 (10. 17d) 


方程 (10. 17) 中 的 wa、 给 出 了 关于 原始 问题 变量 (w，y, y, WKB ARF u 


w=A'Du (10. 18a) 
y= -e Du (10. 18b) 
-£ (10. 18c) 


将 这 些 表 达 式 代入 式 (10. 17d) 中， 得 到 在 数据 4 和 D 上 的 明确 表达 式 如 下 : 
从 KKT 条 件 ， 得 到 
D(Aw -ey) +y -e =0 (10. 19) 
Kew. y 和 y 代入 公式 (10.19) ， 得 到 | 


D(AA'Du -ee Du) + se 
[D(AA" -ee"D]u +7- =e 
[D(AA" -ee"D ++-]u =e 
I ih I a 
u = (+D(44" -ee")D) e=(—-+ HE") e (10. 20) 
Vv 


其 中 五 定义 为 : 
H=D[A-e] (10. 21) 


因此 有 
4 
H =D[A -e]=>HH" =D[A -e] | gD" 


=D[ AA" +ee' |] D" 
=D[AA" + ee" ]D( 因 为 D 是 对 称 的 ) 
因此 有 
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=i zd 
u =(= +D(AA" — ee") D) e= (+ HH") e (10. 22) 


从 式 (10. 22) 中 得 到 ww， 式 (10.18) 给 出 了 式 (10. 11) 定 义 的 问题 的 明确 解答 (w，y， 
Y)。 由 于 式 (10. 21) 2518 u 的 解 需 要 对 一 个 可 能 很 大 的 m x m 和 矩阵 求 逆 ， 因 此 我 们 使 用 Sher- 
man- Morrison- Woodbury 公式 对 矩阵 求 逆 ( 见 文献 [11 ] ) ， 得 到 ; 


ti 
n=v(1-H (+H'A) H' Je 10.23) 


这 一 公式 只 需 对 (1/v +H H) RE, HERRA (n +1) x (n+1)。 注 意 ,n 是 预测 变量 
的 个 数 , 在 大 多 数 实 际 情况 下 ， 其 值 小 于 100。 一 < 且 得 到 w 的 值 , w 和 ,7 就 可 以 从 式 
(10. 18 ) 中 方便 地 计算 出 来 。 图 10-10 给 出 了 实现 PSVM 的 Matlab 代码 。 


function[w,gamma]= psvm(A,D,nu) 
% psvm linear & nonlinear classification 
% input:A,D,nu. output:w,gamma 
$ [{w,gamma] =psvm(A,D,nu) 
_{m,n)=size (A) ;e=ones(m,1);H=D*[A -e]; 
r=sum(H)’ ; %r=H’ *e; 
r= (speye (n+1) /nu+H’*H)\r; %solve (I/nu+H’ *H) r=H’ *e 
u=nu* (1- (H*r) ) ;s=D*u; 
w=(s’*A)’ ; %w=A’*D*u 
gamma=-sum(s); %tgamma=-e’ *D*u 
x=A’' ; 
z=sign (w’ *x-gamma) 













| 图 10-10 线性 PSVM 的 Matlab 代码 


10.1 BEA, PRIGEN: (0, 0), (3,4), (5, 9), (BA) ee TAAA 中 
BARKO, 8), (6, 12), (10, 8), (8, SP48}, 10-1 以 表格 形式 给 出 了 这 些 


数据 。 
对 变量 x, 和 x, 进行 规范 化 ,数据 列 于 表 10-2。 
表 10-1 用 于 寻找 SVM 分 类 器 的 数据 表 10-2 用 于 SVM 分 类 的 规范 化 数据 

人 71.7984 -1.6730 1 
0 0 | - 1.0791 一 0. 5937 1 
3 4 -0.5995 ENEN G fe s M 1 
5 9 ; 1. 0791 ~1, 4032 
12 i i 0. 1199 0. 2159 1 
8 | 1 0. 3597 0. 4857 -1 
9 8 -0.3597 1. 5651 < 
6 12 he 0. 5995 0. 4857 -1 
10 8 ut 0. 1199 — 0. 3238 -Í 
8 5 if 1. 55876 0. 4857 =1 
14 8 -i 


现在 计算 增 广 矩 阵 [4 -e]: 


FF a) EP 


-WR 1.6730) -1 
-Iom 上 03903741 -1 
LO 3005) “0. 79 1 
LOTI CT 1 
0.1199 0. 2159 -1 
0. 3507. OAH I 
po) 3507 oan ol: S04, il 
0.5995; 3 (0. 4857 9-1 
0:4199270 40, 3238 0 -1 
1.858870 00, 4857 0 -1 


[A-e]= 


计算 H=DIA -e| H'H: 
—1.7984 -1.6730 
-1.0791 -0. 5937 
一 0. 5995 0. 7556 
1.0791 -1.4032 
0, 1199 0. 2159. 


H =D[A-e]= 

-0:3597 10,4857 
0. 3597 | 1. 5651 

-0. 5995 -0.4857 

+0; 1199 - — 0.3238 

~ 1.5588. -0.4857 
9- 02, 33 9 

HH = 2 33-- 94 © | 

mt a i 


HE, REPA -a(S +R) n]: 
PE TO 0 
Z| 0 Lr 0 | 
0 ,FU 


ww O 70 
Vo(tte»=0.1)=| 0 10 0 


Oo F 

19 2,339" 
(mn) -|23 19 | 
í 0 P120 


ori Lao 
($ +H"H) -|2 33. 19 | 
o 0o A 


-1 
-1 
-1 
-1 
一 

] 


l 
1 
1 
1 


—0.0066 0.0534 


| 0.0534. -—0.0066 


0 0 
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ʻi 
[1-H(--+H"H) H'] = 
0.667 -0.188 —0.042., -0. G62.- —0.023..-0.018 | -0:041 -0.039 0.065 -0.120 
—0. 188 0.877 -0.064 -0.027 -0.038 0. 019 0. 031 0. 006 0.052 -0.046 
-0.042 -0.064 0. 894 0.052 -0.055 0. 058 0. 133 0. 049 0. 031 0. 014 
-0.067 -0.027 0. 052 0.763 -0.040 0.034 -0.102 0. 050 0. 085 0. 114 
-0.023 -0.038 -0.055 -0.040 0. 947 0. 057 0. 065 0. 058 0. 047 0. 063 
-0. 018 0. 019 0. 058 0. 034 0. 057 0.933 -0.081 -0.071 -0.044 -0.086 
一 0. 041 0. 031 0. 133 -0. 102 0.065 -0.081 0.805 -0.074 -0.019 -0.046 
— 0. 039 0. 006 0. 049 0. 050 0.058 & 0.071. -0.074 0.922 -0.046 -0.106 
0. 065 0. 052 0. 031 0. 085 0.047 -0.044 -0.019 -0.046 0. 943 -0.055 
-0.120 -0.046 0. 014 0. 114 0.063 -0.086 -0.046 -0.106 -0.055 0. 817 


0. 0193 
0. 0622 
0. 1071 
0. 0862 
0. 1081 
0. 0800 
0. 0670 
0. 0750 
0. 1059 
0. 0550 
w=A'Du =( -0.2081, -0.2585) 

y= -e Du= -2:0817e -0. 17 =0 


oi 
=»(1-H(— + HH) H')e= 


表 10-3 给 出 了 分 类 结果 。 
. 表 10-3 SVM 训练 的 结果 








%l X2 w'x-y class 
— 1. 7984 — 1. 6730 0. 8068 1 
- 1. 0791 -0. 5937 0. 3781 1 
-0. 5995 0. 7556 -0. 0706 -1 
1. 0791 — 1. 4032 0. 1382 1 
0. 1199 0. 2159 —0. 0808 -1 
0. 3597 0. 4857 - 0. 2004 -1 
- 0. 3597 1. 5651 -0:3298 -1 
0. 5995 0. 4857 -0. 2503 -1 
0.1199 , -0. 3238 0. 0588 1 
1. 5588 0. 4857 -0. 4500 -1 





可 以 看 到 ， 有 三 个 数据 被 误 分 类 了 。 vi ye 在 训练 数 
据 集 上 的 分 类 准确 率 是 70% 。 
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使 用 非 线性 核 


为 了 得 到 非 线性 分 类 器 ， 我 们 修改 等 式 约 束 优化 问题 ， 将 原 变量 w 用 其 对 偶 等 价 w= 
A Du 替换， 得 到 


miny 3 ly +a" u+y) 


满足 canada -ey) +y =e 
其 中 ,目标 函数 必须 被 修改 为 最 小 化 变量 (uw，y, yy) 的 加 权 欧 式 范 数 之 和 。 

注意 ， 在 目标 函数 中 ww 被 以 wu 替代 ， 因 为 最 小 化 ww 相当 于 最 小 化 wu。 在 约束 
H, w 被 替代 以 A Du。 

如 果 我 们 将 线性 核 A4 kisi k(A, A`), RIR: 


min v > aba +a" u+y ) 
满足 约束 
D[k(A, A')Du-ey] +y =e 
使 用 简写 
K=K(A, A') 
Ars BAA TEA 


1 1 
Lu, y: 9, 0) =(z)? ly Il? +z (uu +y)? +t[D(KDu -ey)+y-e] 


这 里 , te R” PSERARMRHMRAHRT LAFU, y, y, BRENS, 15 
到 下 面 的 KKT 优化 条 件 : 


u —-DK' Dt =0 (10. 24a) 
y+e Dt=0 (10. 24b) 
vy -t=0 (10. 24c) 
D( KDu -ey) +y =e (10. 24d) 
式 10 24a、10. 24b 和 10. 24c Ah T (u, y, ne 
u=DK'Dt, y= -e'Dt, ysr (10.25) 
将 其 代 到 等 式 中 ， 得 到 了 在 数据 A4 MD EWKA: 
人 | +D(KK" +ee")D) e=((-) +66") e (10. 26) 
其 中 G 定义 为 : 
G=D(|K-e| 


GAH 的 定义 中 有 一 个 相似 之 处 。 这 一 相似 使 得 我 们 可 以 用 替代 A 而 由 五 得 到 G, 
这 样 ， 在 图 10-11 的 算法 中 用 天 替代 4 就 得 到 一 个 非 线 性 分 类 器 。 图 10-11 给 出 了 非 线 性 
SVM 的 Matlab 的 代码 。 

这 里 玉 =(44 +1) 。 

(447 +1)* 的 含义 是 对 矩阵 44 : 的 每 个 元 素 加 1， 然后 求 它 的 四 次 方 。 
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function [t,gamma,k] = psvm(k,D,nu) 
% PSVM:linear and nonlinear classification 
% INPUT : A,D,nu. OUTPUT : t,gamma 

% [(t,gamma] =psvm(A,D,nu) ; 

[m,n] =size(k) ; 

e=-ones (m, 1) ; 

G=D* [k -e]; 

r=sum(G)’; %tr=G’ *e; t 
r=(speye(n+1)/nu+G’*G)\r; %solve (I/nu+G’ *G) r=G’ *e 
u=nu* (1- (G*r) ) 

s=D*u; 过 

t=(s'*k)’; %t=K’ *D*u 

gamma=-sum(s); %gamma=-e’ *D*u 

b=sign ( (t’ *k) -gamma) 













图 10-11 非 线 性 SVM 的 Matlab 代码 


例 10.2 对 于 例 10.1， 我 们 使 用 一 个 多 项 式 核 K(x,，y) = (xy +1) 。 将 其 应 用 于 整个 

数据 回 量 ， 得 到 
KCA A’) =(AA' +1)‘ 
(44 +1) 的 含义 是 对 和 矩阵 44 的 每 个 元 素 加 1， 然 后 求 它 的 四 次 方 。 

取 v =0.3, 得 到 w 为 ( -0.0011，0.0128，- 0.0109, 0.0043, 0.3735, 0.1184, 
-0. 0023, 0.0531, 0.2365, -0.0090), y 40.0182, . 

Oar BCE Al at x, .分 类 可 通过 取 K(x ，4 )u-y 的 符号 获得 。 下 面 我 们 通过 两 
个 财务 方面 的 例子 来 解释 其 有 用 性 。 

: 例 10. 3 一 个 银行 的 商业 贷款 部 门 的 经 理想 要 建立 一 个 规则 来 决定 是 否 批准 各 种 贷款 
请 求 。 经 理 认为 在 做 决策 时 ， 一 个 公司 业绩 的 三 个 关键 特征 是 非常 重要 的 : 资产 折 现 力 iq- 
uidity) ~ 444] #7] ( profitability ) 和 活性 (activity) 。 这 个 经 理 以 目前 资产 和 负债 比 作为 资产 折 
现 力 的 度量 。 鱼 利 能 力 以 净利 润 和 销售 额 之 比 度 量 。 活性 以 销售 额 和 固定 资产 之 比 度量 。 这 
个 经 理 收集 了 银行 在 过 去 五 年 内 所 做 贷款 的 18 个 样本 列 于 表 10-4。 这 些 贷款 被 分 为 两 组 : 
被 批准 的 贷款 ; @ 被 拒绝 的 贷款 。 


表 10-4 ”公司 的 业绩 数据 





类 别 资产 折 现 力 Fa Fil RET 活性 
1 0.9 0. 34 1.53 
l 0. 88 0. 23 1. 67 
I 0. 92 0. 28 1.43 
1 0. 89 0. 14 1.24 
1 0. 78 0. 35 1.8 
1 0. 81 0. 26 2.01 
1 0. 72 l 0. 18 1.75 
1 0. 93 0. 22 0. 99 
1 0. 82 0. 26 1.4 

S] 0. 78 0. 26 : 1. 34 

al 0. 78 0. 27 1.67 

l 0. 72 0. 18 1. 53 

=l 


0. 69 0. 16 12 
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( 续 ) 
类 别 资产 折 现 力 Fa All BE FD 活性 
0. 63 0. 15 0. 88 
-Í 0. 58 0. 22 1.42 
a 0. 81 0. 18 1.59 
me 0. 67 0.21 1.24 
gj 0. 65 0. 16 1.37 
表 10-5 列 出 了 规范 化 后 的 数据 。 
表 10-5 规范 化 数据 
x) Xa X3 类 
1. 18 1. 86 0. 29 1 
0. 99 0. 08 0.79 1 
137 0. 89 EE 1 
1. 09 141797 ~0.72 1 
0. 04 2. 02 1. 24 1 
0. 33 0. 56 1. 98 1 
20.53 -0.73 1.07 1 
1. 47 -0.08 oi, 6 1 
0. 42 0. 56 -0. 16 1 
0. 04 0. 56 ~0. 37 a 
0. 04 0. 73 0.79 =i 
+0253 -0.73 0. 29 a 
~0. 81 -1.05 | -0. 86 Si 
138 sigi -1.99 +i 
-1.86 -0.08 -0.09 si 
0. 33 w 0.51 Si 
ķi -0.24 -0.83 =f 
~4.19 SROS 20.97 a4 
通过 训练 线性 支持 回 量 机 ， 得 到 下 面 的 权重 向 量 : 
w = (0. 4236, 0.1312, 0.1268), y =4. 1633e -0. 17 
K 10-6 为 每 个 数据 给 出 其 wxz -yt wx -y 的 正 负 决定 了 其 分 类 。 
表 10-6 每 个 数据 的 wx 一 y 值 和 分 类 
Xi Xa X3 w'x-y 类 正确 分 类 /错误 分 类 
1. 181975 1. 856231 0. 294646 0. 7816 1 Yes 
0. 992015 0. 080706 0. 786372 0. 5305 1 Yes 
1. 371935 0. 887763 -0. 05659 0. 6905 1 Yes 
1. 086995 “iIe -0. 72393 0. 1886 1 Yes 
0. 042213 2. 017642 1. 242975 0. 4402 1 Yes 
0. 327154 0. 56494 1. 980565 0. 4638 1 | Yes 
-0. 52767 -0.72635 1. 067358 -0. 1835 No 
1. 466915 -0.08071 -1.60201 0. 4077 1 Yes 
0. 422134 0. 56494 -0. 16196 0. 2324 1 Yes 
0. 042213 0. 56494 = 3777 0. 0447 1 No 
0. 042213 0. 726351 0. 786372 0. 2129 1 No 
-0; 52767 -0.72635 0. 294646 -0. 2815 At Yes 
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l ( 续 ) 

Xi Xa X3 wx-y 类 正确 分 类 /错误 分 类 
—0.81261 7 — 1.04917 ~0. 86442 一 0. 5915 -1 Yes 
— 1. 38249 — 1.21059 — 1.98837 —0. 9966 -1 Yes 
— 1. 85739 —0. 08071 - 0.09171 —0. 809 -1 Yes 

0. 327154 — 0. 72635 0. 505385 0. 1074 1 No ; 

— 1. 00257 一 0. 24212 —0. 8293 -—0. 5616 一 1 Yes 
一 1. 19253 — 1. 04917 - 0. 26733 — 0. 6767 -1 Yes 


因为 数据 经 过 规范 化 ， 因 此 分 隔 超 平 面 为 : 


w, (x, -X w,( x, 一 区 Wa ( X, — X 
REF 1) w(t 2) Wa (% 


vee 
O, tw, O + W3 3 
0. 4236(x, -0.7756) | 0. 1312(x, -0.225) 0. 1268(x, -1.4461) 
0. 1053 0. 06195 bf 0. 2847 TES 


线性 核 (在 训练 数据 上 的 ) 分 类 正确 率 为 78% 。 如 果 使 用 四 阶 的 多 项 式 核 ， 分 类 正确 率 
为 100% 。 
例 10.4 保险 公司 HDIC 希望 开发 一 个 程序 来 帮助 预测 一 个 银行 是 否 会 在 来 年 陷入 财 
务 危 机 。 以 下 财务 比率 对 做 这 样 的 预测 是 有 帮助 的 。 
;比率 1 = 总 资金 /总 资 疙 
比率 2 = 总 开销 /总 资产 
比率 3 = 总 借贷 /总 储蓄 
HDIC 针对 银行 收集 了 一 年 的 数据 样本 。 数 据 中 包括 了 目前 正 陷 入 财务 危机 的 银行 。 这 
些 数 据 汇总 在 表 10-7 中 。 


表 10-7 银行 及 其 财务 比率 


对 象 分 组 比率 1 比率 2 比率 3 
1 1 1 1 8.1 
2 1 6.6 0.1 1.04 
3 1 SS ea 0. 66 
4 1 12.3 0. 09 ) 0.8 
5 1 4.5 0. 11 0. 69 
6 1 9.1 K #40114 0.74 
7 1 Li 0. 12 0. 63 
8 1 8.9 0. 12 0.75 
9 1 0.7 0. 16 0. 56 
10 1 9.8 0. 12 0. 65 
11 2 7.3 0.1 0.55 
12 2 14 0. 08 0.46 
13 2 9.6 0. 08 0.72 
14 2 12. 4 0. 08 0. 43 
15 2 18.4 0. 07 0. 52 
16 2 8 0. 08 0. 54 
17 2 12. 6 0. 09 0.3 
18 2 9.8 0. 07 0. 67 
19 2 8.3 0. 09 0.51 


分 组 1 中 的 银行 是 陷入 财务 危机 的 银行 ， 而 分 组 2 中 的 银行 是 财务 状况 良好 的 银行 。 
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规范 化 后 的 数据 如 表 10-8 所 示 。 
表 10-8 规范 化 财务 比率 
xy Xa ha X3 类 
— 1. 61696 4. 102026 4. 111626 $8 
一 0. 39851 一 0. 23056 0. 013443 1 
一 0. 57258 p —0. 18242 —0. 20714 l 
0. 84169 5 0. 2787 —0. 12587 1 
一 0. 85543 一 0. 18242 —0. 18973 l 
0. 145435 —0. 03801 一 0. 1607 1 
— 1, 5952 一 0. 13428 一 0. 22455 1 
0. 101919 —0. 13428 —0. 1549 1 
— 1. 68223 0. 058275 —0. 26519 1 
0. 297741 © 一 0. 13428 UE 0. 21294 1 
— 0. 24621 二 0. 23056 — 0. 27099 -1 
1 211979 — 0. 32684 一 0. 32324 —1 
0. 254225 一 0. 32684 . 一 0. 17231 -1 
0. 863447 — 0. 32684 一 0. 34065 一 ] 
2. 168925 一 0. 37498 —0. 28841 一 
一 0. 0939 — 0. 32684 —0. 2768 -1 
0. 906963 一 0. 2787 —0. 41611 -1 
0. 297741 — 0. 37498 -0. 20133 -1 
一 0. 02863 一 0. 2787 —0. 29421 -1 
通过 训练 ， 得 到 w 向 量 为 ( -0. 4663, 0.0640, 0.0255) 以 及 y = -0: 0448, 
K 10-9 给 出 了 每 个 数据 的 wx -yo we —y 的 正 负 决定 了 分 类 。 
表 10-9“， (规范 化 ) 银 行 危 机 数据 的 wx —y 值 和 分 类 : 
x; Xz X3 WwW - Yy 类 正确 分 类 /错误 分 类 
— 1. 61696 4. 102026 4. 111626 1. 166 1 Yes 
-0. 39851 -0. 23056 0. 013443 0. 2162 l Yes 
-0. 57258 —0. 18242 Gi ei 0. 20714 0. 2948 1 Yes 
0. 84169 一 0. 2787 一 0. 12587 一 0. 3687 -1 No 
- 0. 85543: — 0. 18242 — 0. 18973 0. 4271 1 Yes 
0. 145435 -0.03801 一 0. 1607 一 0. 0296 一 1 No 
— 1.5952 —0. 13428 — 0. 22455 0. 7742 1 Yes 
0. 101919 一 0. 13428 —0. 1549 *-0. 0153 -1 No 
— 1. 68223 0. 058275 一 0. 26519 0. 8261 ] Yes 
0. 297741 一 0. 13428 -0. 21294 —0. 1081 一 ] Yes 
—0. 24621 一 0. 23056 —0. 27099 0. 1379 l No 
1. 211573 一 0. 32684 -0.32324 -0. 5493. -1 Yes 
0. 254225 = 0: 32684 —0. 17231 —0. 0991 -1 Yes 
0. 863447 一 0. 32684 一 0. 34065 — 0. 3874 -1 Yes 
2. 168925 一 0. 37498 —0. 28841. 一 0. 9978 一 1 Yes 
一 0. 0939 一 0. 32684 一 0. 2768 0. 0606 1 No 
0. 906963 一 0. 2787 一 0. 4161 1 一 0. 4065 -1 Yes 
0. 297741 — 0. 37498 —0. 20133 —0. 1232 -1 Yes 
— 0. 02863 一 0. 2787 — 0. 29421 一 0. 0328 1 No 


使 用 线性 核 的 分 类 正确 率 为 63%。 使 用 四 阶 的 多 项 式 核 ， 分 类 正确 率 为 100% 。 
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10.5 生成 数据 集 


现在 已 经 有 了 各 种 SVM 方法 并 且 应 用 特定 核 的 新 的 SVM 也 在 文献 中 不 断 出 现 。 当 设计 
一 个 新 的 算法 的 时 候 ， 我 们 应 该 和 其 他 已 有 的 算法 进行 比较 [3,，7，8] 。 为 了 比较 SVM 的 性 
能 ， 研 究 者 通常 使 用 一 些 大 学 数据 库 中 公共 标准 数据 集 。: 另 外， 研究 者 也 使 用 大 工 生成 的 数 
据 集 ， 即 使 是 使 用 许多 标准 的 非 线性 核 ， 这 些 数据 也 很 难 被 完全 分 类 。 这 里 我 们 讨论 三 种 人 
工 数据 集 生成 器 ， 前 两 种 是 二 维 的 (二 元 ) ， 而 最 后 一 种 是 n 维 的 。 


10. 5. 1 螺旋 数据 生成 器 


我 们 以 半径 6. 5 生成 两 个 缠绕 的 螺旋 。 这 两 个 螺旋 圈 ( 内向) 互相 缠绕 三 圈 ， 每 个 螺旋 
生成 97 个 样本 。 两 个 相继 螺旋 点 之 间 的 角度 为 m16, K 10-12 给 出 了 生成 这 些 点 的 C 语言 
代码 。 这 些 点 的 一 个 集合 被 标记 为 “+1”， 其 他 集合 标记 为 “ -1”。 目 标 是 进行 学 习 以 区 分 
这 两 个 类 。 图 10-13 给 出 了 生成 数据 点 的 图 示 。 


main( ) 


{ 
gs iż 
double x, y, angle, radius; 


/* write spiral of data */ 
for. (is0; i<=96; Iss) { 
angle = i * PI / 16.6; 


radius = 6.5 * (104) ~ i) / 104.0; 

x = radius * sin(angle); 

y = radius * cos(angle); . 

print£("((%8.5f %8.5f) Vn 5; ox, y, 1.0); 
printf ("“((%8.5£  %8.5£) PE iie ie A 


//PI=3.14 





图 10-12 ”生成 螺旋 数据 集 的 代码 


(Ro 
~ 


图 10-13” 两 个 螺旋 数据 集 
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10.5.2 棋盘 格 数据 集 


这 里 ， 我 们 生成 两 个 数据 点 集 5 一 个 集合 构成 图 10-14 中 的 黑 方 框 ， 男 一 个 集合 构成 白 
HE, Alx, tu) Cyr yo) 分 别 表示 方 框 的 x,*Y 坐标 的 下 限 和 上 限 。 


1 







0.8 








0.2 


图 10-14 棋盘 


例如 ， 对 于 左上 角 的 黑 方 框 ， 其 上 下 限 分 别 为 : 
CS wli, sy = =O. S 
yr=0.3, yy=l 
从 一 个 方 框 中 随机 选择 的 点 的 坐标 如 下 : 
x =x, +(x, —-x,) * rand( ) 
y =x, + (yu YL) * rand() 
其 中 rand( ) 是 区 间 0 ~1 ZAMS ROL Ae Mat. AA 10-15 给 出 了 生成 的 数据 点 。 
nig Fe 8 “O & 
i PE os 


0 ono 
> 8P $ 
Ud oO 





图 10-15 ， 从 棋盘 产生 的 数据 
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10.5.3 多 元 正 态 分 布 数据 生成 器 


在 以 上 两 个 数据 集 生成 器 中 ,我 们 限制 在 二 维 数据 点 。0: L Mangasarian [11 12] 给 出 
了 生成 多 元 正 态 分 布 数 据 集 的 Matlab 代码 。 代 码 可 从 http: //www. cs. wisc. edu/dmi/svm/ 
ndc/ 下载。 代码 的 商业 化 使 用 需要 作者 的 授权 。 我 们 将 代码 列 于 此 处 用 于 参考 ( 见 图 10-16 , 
感谢 O. L Mangasarian 教授 允许 我 们 在 本 书 中 使 用 这 些 代 码 )。 

代码 产生 20 000 个 32 维 的 数据 (分 别 由 变量 nRows Ail nCols 控制 )。 落 和 人 “+1” 和 “ -1 
分 组 的 点 的 个 数 依赖 于 由 代码 随机 生成 的 超 平 面 边界 ， 因而 无 法 由 用 户 设 定 。 


NORMALLY DISTRIBUTED CLUSTERS data generator: 

Generate a series of random centers for multivariate normal 
distributions. Randomly generate a fraction for this center, i.e. what 
fraction of points we will get from this center. ‘Randomly generate a 
separating plane. Based on plane, choose classes for centers. Then 
randomly generate the points from the distributions. Can increase 
inseparability by increasng variances of distributions. We will get 
measure of “true” separability by looking at how many points ended up 
on the opposite. Sides of the line. ý 

All values are taken as integers for “simplicity. 

Copyright (C) 2000 David R. Musicant “and Olvi L. Mangasarian. 
Version 1.0 oH MM 

This software is ‘free for académie and research use only. 

For commercial use, contact musicant@cs.wisc.edu. 


de dP dP dP dP dP dP dP dP dP de dP oP oP 


rand(‘state’ ,91225); 
randn(‘state’ ,19481) ; 
lowBound = -50; 

highBound =50; 

nCenters = 20; 

nCols s= 32; 

nRows = 20000; 

nTestRows = 0.01 * nRows; 
nBufferPoints = 100000; 
nExpandFactor = 10; % How much to stretch the covariance matrix 
sTrainFile = ‘outtrain.txt’; 
sTestFile = ‘outtest.txt’; 


% Generate the centers according to a uniform distibution. 
mCenters = round(lowBound + rand(nCenters,nCols) * (highBound-lowBound) ) ; 


% Generate the variances and covariances randomly to create a matrix for 
% each center 
mCovariance = zeros(nCols,nCols) ; 
cCovariance = cell(nCenters,1); 
for i = 1:nCenters, 

mRootCovariance = nExpandFactor * $ 

rand (nCols, nCols) * (highBöund- LowBound). / = 50; 

cCovariance{i} = mRootCovariance’ * mRootCovariance; 

end; 


% Determine what proportion of points will come from each center, then 
% create a cdf to use in deciding which to generate. 
vPointFraction = rand (nCenters, 1); 

vPointFraction = vPointFraction / sum(vPoint Fraction) ; 

vPointCdf = zeros(1,nCenters) ; 

for i = l1:nCenters, 





图 10-16， 生 成 多 元 数据 的 Matlab 代码 
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vPointCdf(i) = sum(vPointFraction(1:i)); 
end; 


% Create a random separating plane. 
w = -2 + rand(nCols,1)*4; 
gamma = lowBound / 10 + rand * (highBound-lowBound)/10; 


% Now choose which classes to which each center belongs 
vCenterClasses = sign(mCenters * w - gamma * ones(nCenters,1)); 
vZeroSpots = find(vCenterClasses==0) ; 

vCenterClasses(vZeroSpots) = ones (length(vZeroSpots) ,1) ; 


% Prepare output file 
flatfile([],sTrainFile, 0) ; 
flatfile([],sTestFile, 0) ; 


% Now go through and begin generating random points. 
% Do it twice: once for testing, once for training. 


for nDataset = 1:2, 


if (nDataset==1) 
nRowsLeft = nRows; 
sOutputFile = sTrainFile; 
nTotRows = nRows; 
else 
nRowsLeft = nTestRows; 
sOutputFile = sTestFile; 
nTotRows = nTestRows; 
end; 
nMisclass = 0; 
nTrainingClassl = 0; 
nTrainingClassml = 0; 


while (nRowsLeft > 0) 
disp(sprintf(‘Rows left = %d’ ,nRowsLeft)); 
nRowsNow = min(nBufferPoints,nRowsLeft) ; 
nRowsLeft = nRowsLeft - nRowsNow; 
mNewPoints = zeros(nRowsNow,nCols) ; 
vPointCenters = zeros (nRowsNow,1) ; 


% Determine which center each point should belong to 
vRandomNumbers = rand(nRowsNow,1) ; 
for i = nCenters:-1:1, 
vCenterMatch = (vRandomNumbers <= vPointCdf(i)); 
vPointCenters({vCenterMatch]) = i; 
end; Pans + 


% Create a vector of training classes for each point 
vTrainingClasses = zeros (nRowsNow, 1) ; 


% Within each class, generate an appropriate number of random points. 
for i = 1:nCenters, 
vindices = (vPointCenters==i) ; 
nPoints = sum(vIndices) ; 
vTrainingClasses(vIndices) = vCenterClasses(i) ; 
mNewPoints(vIndices,:) = round( - er y 
mvnrnd (mCenters (i, :),cCovariance{i},nPoints)); 


图 10-16 ( 续 ) 
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% Count how many points are incorrectly classified 








vFitClass = sign(mNewPoints(vIndices,:) * w - gamma * 

ones (nPoints,1)); 

vZeroSpots = find(vFitClass=<=0) ; 

vFitClass(vZeroSpots) = ones(length(vZeroSpots),1); . 

nMisclass = nMisclass + sum(vFitClass~=vCenterClasses(i)); 
end; for 





% Output the data points to disk 

flatfile ([mNewPoints vTrainingClasses] , sOutputFile,1); 
nTrainingClassl = nTrainingClassl + sum(vTrainingClasses==1) ; 
n+TrainingClassml = nTrainingClassml + sum(vTrainingClasses==-1) ; 







while 






end; 





disp(sprintf(‘Percent separable estimate = %4.2f%%\n’ ,100*(1- 
nMisclass/ nTotRows) )); i 

disp (sprintf (‘Number class 1 points = %d\n’,nTrainingClass1)); 

disp (sprintf (‘Number class -1 points = %d\n’,nTrainingClassm1) ) ; 







%for-nDataset 





end; 


图 10-16 (2%) 


10.6 问题 及 解答 


在 这 一 节 中 ， 我 们 给 出 一 些 常 见 问题 (任何 认真 学 习 SVM 的 人 都 有 可 能 遇 到 这 些 问 
题 ) 。 如 采 你 在 阅读 以 前 各 节 时 提出 了 这 些 问 题 ， 显 然 你 已 经 在 正确 的 轨道 上 。 

1) 改 变 核 是 否 会 改变 决策 边界 的 位 置 ? 

答 : 多 数 情况 下 是 这 样 的 。 某 些 时 候 ， 改 变 径 向 基 核 的 o 值 ， 并 不 改变 决策 边界 的 位 
置 ， 如 ， 数 据点 是 对 称 的 。 

2) 正 数据 点 和 负数 据点 之 间 的 距离 会 对 分 隔 区 间 的 宽度 以 及 支持 向 量 的 权重 产生 怎样 
的 影响 ? 

答 : 最 邻近 的 异类 点 之 间 的 距离 越 大 ， 分 隔 区 间 的 宽度 越 大 ， 同 时 形成 分 隔 区 间 的 支持 
回 量 的 权重 越 小 。 直 党 上 ， 支 持 向 量 的 距离 越 大 ， 它 们 对 落 于 分 隔 区 间 的 节点 的 “影响 ”， 
即 “吸引 "这 些 点 到 其 分 类 中 的 影响 力 越 小 ， 权 重 越 低 。 见 图 10-17。 








= 正 标记 样本 














o 负 标 记 样 本 @ 
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图 10-17 平面 越 宽 则 支持 向 量 的 权重 越 小 
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3) 对 于 一 个 在 数据 上 过 分 拟 合 的 支持 向 量 机 , 文 持 向 量 的 个 数 有 何 影响 ? 

答 : 大 多 数 或 全 部 数据 点 都 会 是 支持 向 量 。 

4) 对 某 个 数据 集 ， 如 何 通过 比较 图 表 来 判断 哪个 核 构建 的 分 类 器 更 好 ? 

答 : 对 于 一 个 训练 数据 集 ， 最 好 的 分 尖 各 是 将 全 部 数据 太 正 确 分 类 。 同时 ， 并 非 全 部 
(或 并 非 全 部 而 是 少 部 分 ) 数 据点 是 支持 问 量 。 


习题 


1. 线性 支持 向 量 机 使 用 什么 方程 分 类 ? 

2. Be BEF See SCs I OLENA RI LF HY E, 问题 用 拉 格 明日 形式 表示 时 ， 需 要 最 大 化 
什么 函数 ? 如 何 表达 约束 ? 

. 线性 支持 向 量 机 在 分 类 器 内 部 使 用 WR 在 训练 阶段 是 否 也 使 用 KAA? 如 采 是 ， 在 哪里 
使 用 ? 

4. 最 好 的 决策 边界 产生 最 澳 的 间 阳 。 为 了 最 大 化 间 隅 的 宽度 ， 我 们 要 最 大 化 什么 变量 组 成 
的 方程 ? 

. 一 旦 找到 支持 向 量 及 其 权重 ， 如 何 找到 分 类 向 量 ( 即 称 为 w 的 向 量 )? 

. 为 列 于 表 10-10 中 的 数据 找到 一 个 合适 的 SVM 分 类 船 对 其 分 类 。 


表 10-10 用 于 SVM 分 类 的 数据 
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7. 使 用 10.5 RRE ERER ER, IRE AA SUE SCF LER BI— Taya. EA 
同 的 核 并 在 检验 数据 上 比较 其 在 分 类 误差 上 的 性 能 。 

8. 使 用 10. 5 节 的 等 式 产生 棋盘 数据 集 ， 并 使 用 邻近 支持 向 量 机 寻找 一 个 分 类 器 。 使 用 不 同 
的 核 并 在 检验 数据 上 比较 其 在 分 类 误差 上 的 性 能 。 

9. 从 O. L. Mangasarian 的 网 站 (http: Vwww. cs. wise. edu ~ olvi/cs525. html) F FL ARI HY A 


GES, FFE AAG EL SR — PAE Ra (AS EEE PA Lt ABER ) 。 
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将 对 象 划分 为 有 意义 的 组 群 的 能 力 是 智能 最 重要 的 模式 之 一 。 人 类 可 以 轻而易举 地 
完成 这 项 任务 。 例 如 ， 早 在 孩童 时 代 ， 人 们 便 学 习 区 分 猫 和 狗 、 鞋 果 和 橙子 。 但 是 让 
计算 机 来 完成 这 项 自动 分 组 工作 是 一 项 非常 困难 的 ， 并 且 通 常 是 不 适 定 的 问题 ( 记 - 
posed problem2 ) 。 

聚 类 分 析 (clustering analysis ) 是 一 种 探查 数据 结构 的 工具 。 聚 类 分 析 的 核心 是 聚 类 ， 即 
将 对 象 划分 为 复 ， 使 得 同一 个 簇 的 对 象 相似 ， 而 不 同 复 的 对 象 相 异 。 对 象 可 以 通过 某 些 度量 
(如 属性、 特征 ) 或 与 其 他 对 象 的 关系 (例如 ， 逐 对 距离 、 相 似 性 ) 来 描述 。 与 分 类 不 同 ， 聚 
类 不 需要 以 先 验 标识 符 来 标定 数据 类 别 标号 的 假定 。 因 此 ， 聚 类 属于 非 监 督学 习 技 术 ， 而 分 
类 属于 监督 学 习 技术 。 

对 急剧 增长 的 数据 加 以 组 织 和 从 数据 中 学 习 有 价值 信息 的 需要 ， 使 得 聚 类 成 为 一 个 非常 
活跃 的 研究 领域 。 不 采用 概括 技术 ， 人 们 很 难 从 充斥 着 大 量 信息 的 数据 库 中 发 现 知识 。 基 本 
的 统计 量 ( 如 均值 、 方 差 ) 或 者 直方 图 可 以 提供 对 于 数据 的 初步 感觉 。 然 而 ， 聚 类 分 析 可 以 
揭示 对 象 之 间 、 特 征 之 间 以 及 对 象 和 特征 之 间 错 综 复 杂 的 关系 。 

聚 类 在 很 多 领域 被 广泛 应 用 ， 包 括 人 工 智 能 、 生 物 学 、 客 户 关系 管理 、 数 据 压缩 、 数 据 
挖 据 、 信 息 检 索 、 图 像 处 理 、 机 器 学 习 、 市 场 营销 、 医 药 、 模 式 识 别 、 心 理学 和 统计 学 。 例 
如 ， 在 生物 学 领域 ， 聚 类 被 用 来 依据 物种 特征 自动 建立 物种 分 类 。 当 前 ， 研 究 人 员 对 根据 基 
因 序列 数据 建立 系谱 树 产 生 了 浓厚 的 兴趣 。 聚 类 的 另 一 个 应 用 是 帮助 更 好 地 理解 细胞 内 生物 
学 过 程 中 的 基因 功能 。 分 析 基 因 表 达 数 据 的 一 个 关键 步骤 是 发 现 基 因 组 ， 使 得 每 个 基因 组 具 
有 相似 的 表达 形式 。 一 个 日 益 发 展 的 应 用 领域 是 客户 关系 管理 ， 在 该 领域 中 ， 可 以 从 多 样 的 
接触 点 (网 上 冲浪 、 收 银 机 交易 、 呼 叫 中 心 业务 ) 方 便 地 收集 数据 ， 这 些 数据 中 包含 关于 顾 
客 行为 的 有 价值 知识 ， 利 用 这 些 知 识 可 以 优化 市 场 营 销 方案 、 制 定 促销 和 定价 策略 。 由 于 数 
据 量 巨大 而 且 琐 碎 ， 从 中 抽取 知识 是 非常 困难 的 ， 有 时 非常 显而易见 的 东西 也 会 被 包 略 。 到 
类 在 挖掘 过 程 中 是 至 关 重 要 的 ; 它 可 以 通过 对 具有 相似 特征 的 客户 进行 分 组 而 将 数据 概括 到 
一 个 可 以 管理 的 级 别 。 

聚 类 分 析 是 一 项 基本 分 析 技 术 ， 不 需要 对 组 数目 或 组 结构 做 任何 假设 。 分 组 基于 对 象 间 
相似 性 或 者 距离 ( 相 异 性 ) 进 行 。 聚 类 的 输入 是 相似 性 度量 ,或 者 是 可 以 从 中 计算 相似 性 的 
数据 。 

为 了 说 明定 义 自然 分 组 的 困难 本 质 ， 考 虑 将 一 副 普通 扑克 有 牌 中 的 16 张 人 头 牌 进行 分 类 。 
一 些 简单 的 分 组 如 图 11-1 所 示 。 


O ”在 数学 文献 中 ， 记 -posed problem 译作 “不 适 定 问题 "。 不 适 定 问题 是 指 没有 解 ， 或 解 不 唯一 的 问题 。 一 _ 译 
者 注 
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图 11-1 纸牌 分 组 


然而 ， 通 过 另 一 个 例子 (如 图 11-2 所 示 ) ， 可 以 说 明 聚 类 是 非常 主观 的 (或 者 随 具体 问 
题 而 定 的 ) 。 仔 细 观 察 图 中 所 示人 物 。 





a) 
图 11-2 聚 类 是 主观 的 
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Narayanan 的 家 庭 
b) 





图 11-2 (2) 


在 大 多 数 实际 的 聚 类 分 析 中 ， 人 研究 者 对 如 何 区 分 好 的 分 组 与 坏 的 分 组 问题 有 充分 的 
了 解 。 

聚 类 分 析 的 首要 目的 是 发 现 项 (或 者 变量 ) 的 自然 分 组 。 于 是 ， 首 先 我 们 必须 拟订 一 个 
量化 的 太 度 来 度量 对 象 之 间 的 联系 。 这 些 故 度 主 要 指 相似 性 度量 ， 并 且 主 要 是 表示 对 象 间 中 
离 的 统计 度量 。 


11.1.1 相似 性 及 其 度量 


从 复杂 数据 中 提取 相对 简单 分 组 结构 的 主要 工作 是 找到 一 个 “紧密 度 ” 或 相似 性 度量 。 
韦伯 斯 特 字典 将 相似 性 定义 为 相似 的 性 质 或 状态 ; 相似 ; 类 似 之 处 ; 特征 相似 。 定 义 相 似 性 
是 件 很 困难 的 事情 ， 但 是 “ 当 我 们 看 到 它 的 时 候 ， 我 们 即 可 领会 ”。 如 图 11-3 所 示 ， 观 察 两 
个 哺乳 动物 的 相似 性 。 相 似 性 的 真正 意义 是 一 个 哲学 问题 ， 但 是 ， 在 数据 控 气 中， 我 们 必须 
采用 实用 主义 的 方法 。 我 们 基于 特征 来 测量 相似 性 。 








图 11-3 相似 性 虽然 很 难 定义 ,但 一 目 了 然 
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有 时 ,我 们 可 以 采用 很 完美 的 特征 来 度量 相似 性 ;但 大 多 数 情 况 下 我 们 需要 : 

* 广 生 特征 。 假 设 我 们 希望 寻找 身体 健康 状况 相似 的 人 群 ， 此 时 ， 身 高 和 体重 便 不 是 有 

”用 的 特征 ， 我 们 需要 知道 这 些 人 的 BMI( BMI = 体重 (千克 )/ 身 高 "( 米 )。 

© 提炼 特征 。 获 得 的 特征 有 可 能 含有 噪声 或 为 离 群 值 。 

e 规 范 化 特征 。 我 们 需要 对 特征 进行 变换 。 \ 

© 减少 特征 。 我 们 可 能 获得 的 特征 太 多 以 至 于 不 能 进行 有 效 的 相似 性 测量 ， 因 此 可 能 需 

要 进行 降 维 。 

不 存在 神奇 的 黑箱 来 测量 相似 性 。 然 而 ， 存 在 两 条 有 用 的 一 般 性 技巧 : 特征 投影 (fea- 
ture projection ) 和 编辑 距离 (edit distance ) , 

FETE BLS KRITERE BU EE ZS a], (DR A E E y APE 23 TB 
离 就 是 相似 度 。 例 如 ， 有 一 群 鸟 ， 包 含 九 个 不 同 品种 : 吸 蜜蜂 鸟 、 紫 喉 蜂 鸟 、 金 喉 红 顶 
RED. RE, TE, RAE SHE, ARES, 现在 考虑 特征 四 体重 ，@ 加 了 晓 长 与 身长 之 
比 。 我 们 用 这 些 特 征 将 不 同 种 类 的 鸟 投影 到 特征 空间 ， 如 图 11-4 所 示 。 在 这 个 空间 中 ， 
以 不 同 种 类 鸟 之 间 的 距离 作为 相似 性 度量 。 显 而 易 见 ， 蜂 鸟 和 储 在 特征 空间 中 被 明显 地 
pty. AS. 






REG RES, 


KE o a 
图 11-4 特征 投影 


另外 一 个 例子 是 费 希 尔 ( Fisher) 的 芒 尾 属 植物 数据 集 ( 见 图 11-5)。 现 有 三 种 植物 属于 同 
一 植物 物种 。 我 们 选取 花 辩 长 度 和 宽度 作为 特征 ， 并 将 其 投影 到 特征 空间 。。 ”- 

我 们 注意 到 ， 现 在 对 象 间 的 相似 性 依赖 于 我 们 测量 的 特征 ( 和 距离 度量 本 身 )。 图 
11-6 说 明 相对 于 某 些 特 征 来 说 两 个 个 体 之 间 非 常 接近 ， 而 相对 于 其 他 某 些 特征 来 说 相 
PERS a ee | 
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图 11-5“ 仿 尾 属 植 物 物种 和 基于 花 激 长 度 及 宽度 投影 的 特征 空间 


按 名 字 相 似 。 按 职 业 相似 





00 





i 





图 11-6 相似 性 依赖 于 特征 


编辑 距离 (edit distance) : 第 二 种 度量 两 个 对 象 之 间 相 似 性 的 方法 是 ,将 一 个 对 象 转换 
为 另 一 个 对 象 ， 并 且 测 量 其 所 花费 的 工作 量 。 这 种 工作 量 的 度量 ,更 确切 地 说 ， 转 换 的 “ 代 
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Br” 就 是 相似 性 。 图 11-7 对 这 个 概念 进行 了 解释 。 
通常 ， 在 选择 相似 性 度量 时 挫 杂 了 大 量 的 主观 因素 。 重 要 的 考虑 因素 包括 变量 的 本 质 
(离散 的 、 连 续 的 、 二 值 的 ) 或 者 测量 刻度 ( 标 称 的 、 顺 序 的 、 间 隔 的 、 比 值 的 ) 以 及 主题 


知识 。 


Shivani 与 Lakshmi 的 距离 

改变 服装 样式 LA 

添加 耳 饰 1 点 

改变 发 型 1 点 
d(Shivani,Lakshmi) =3 


Sandhya 与 Shivani 的 距离 

改变 服装 样式 LA 

添加 耳 饰 La 

降低 高 度 1 点 

拿 起 烟 管 1 点 

减肥 LA 
d(Sandhya, Shivani) =5 





Sandhya 

图 11-7 采用 编辑 距离 测量 相似 性 
当 所 有 项 被 聚 类 后 ， 通 常 某 种 距离 表明 邻近 度 。 另 一 方面 ， 变 量 通常 基于 相关 系数 
(correlation coefficient) 或 者 关联 度量 而 聚合 。 为 了 测量 相似 性 (通常 我 们 测量 相 异 性 一 一 距 


离 度量 ， 相 似 程度 越 高 距离 越 小 ) ， 我 们 测量 对 象 的 相关 特征 (针对 当前 特定 问题 的 ) ， 得 到 
一 个 相似 性 /距离 的 数值 度量 。 图 11-8 解释 了 这 个 概念 。 





Soman Sumen . 





3 


图 11-8 聚 类 内 的 距离 表示 接近 度 


距离 度量 定义 : 令 0, MO, 表示 客观 世界 中 的 两 个 对 象 ，0, MO, 之 间 的 距离 ( 相 异 性 ) 
征 一 个 实数 ， 用 distance(O,, O,) KA d( 0;，0,) 表 示 ( 参 见 图 11-8)。 
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连接 (joining ) BAY FRE (tree clustering ) 方 法 在 形成 聚 类 时 使 用 对 象 之 间 的 相 异 度 或 者 距 
离 。 这 类 距离 可 以 是 基于 单 维 或 者 多 维 的 。 例 如 ， 如 果 要 对 方便 食品 进行 聚 类 ， 可 以 考虑 它 
们 所 包含 的 卡路里 、 价 格 、 主 观 的 嗜好 排名 等 。 最 直接 的 计算 多 维 空间 中 对 象 间 距离 的 方法 
就 是 计算 欧 氏 距离 。 在 二 维 或 三 维 空间 中 ， 这 种 度量 就 是 该 空间 中 对 和 象 间 的 几何 距离 ( 如同 
采用 尺子 进行 测量 ) 。 对 于 树 聚 类 方法 来 讲 ， 它 并 不 在 意 距 离 是 否 是 现实 世界 中 的 真实 距 
离 ， 还 是 其 他 对 研究 者 来 说 更 具 意 义 的 推导 出 的 距离 度量 ,这 主要 取决 于 人 研究 者 根据 特定 应 
用 选择 合适 的 方法 。 

欧 氏 距离 (Euclidean distance): 这 是 一 种 最 常用 的 距离 。 它 可 以 简单 表示 为 多 维 空间 中 
的 几何 距离 ， 计 算 公 式 为 : 


Distance( 0;,0;) = 2 ; |©, (Ox - Ox)? : (11.1) 
k=1 


例如 ， 考 虑 表 11-1 所 列 的 数据 。 


表 11-1 相关 数据 
对 象 /变量 X, X, X, X, 
Q, 5 6 4 9 
Q, 8 9 3 2 
Q, 3 4 5 3 


按 特 定 顺 序 排列 的 对 象 的 特征 值 ， 可 以 把 对 象 看 作 是 多 维 空间 中 的 点 。 在 这 个 例子 中 ， 
由 于 具有 四 个 变量 ， 因 此 空间 维 数 为 4。 对 象 间 的 距离 为 : 
Distance(O,, O,) = / (5 -8) + (6 -9) 4(4=3)" + (9-2)* =8. 25 
Distance(O,, 0,) SYS —3)* +(6 +4)* +(4.=5)* + (9 -3) =6.7 
Distance(O,, O,) = /(8 -3) + (9 -4° +(3 =-5)? + (2-3)? =7.42 
注意 ， 欧 氏 距 离 ( 以 及 平方 距离 ) 通 常 是 由 原始 数据 计算 得 到 ， 而 非 规 则 化 后 的 数据 。 
该 方法 具有 某 些 优势 (例如 ， 不 增加 新 对 象 不 影响 任意 两 个 对 象 之 间 的 距离 ， 即 使 新 增 对 象 
是 离 群 点 ) 。 然 而 ， 不 同 维 间 的 尺度 选择 对 聚 类 结果 有 着 显著 的 影响 。 假 如 ， 其 中 一 维 表示 
测量 的 长 度 ， 用 厘米 表示 ， 如 果 将 它 换算 为 毫米 表示 ( 乘 以 10)， 那 么 欧 氏 距离 或 者 平方 欧 
氏 距 离 ( 从 多 维 计算 得 到 ) 的 计算 结果 将 受 很 大 影响 ， 聚 类 分 析 结 果 也 会 因此 而 发 生变 化 。 
街区 距离 (city-block distance); 街区 距离 (又 称 曼哈顿 距离 ) 仅 仅 是 维 上 的 平均 差 。 在 通 
常情 况 下 ， 这 种 距离 度量 产生 的 结果 类 似 于 欧 氏 距离 。 要 注意 的 是 ， 在 该 距离 度量 中 ， 离 群 
点 的 作用 被 消 弱 ( 由 于 没有 取 平 方 ) 。 街 区 距离 的 计算 公式 为 : 
Distance( 0;,0;) = =F, |Qy - Op! (diy) 
用 表 11-1 中 的 数据 计算 街区 距离 如 下 : 
Piaot tO = 5 ea te =o te ET 215-=9-5 


Disana kO, , 0,) =4( 5-314 人 


Dual so 0,) = 元 ig -31419-41 4 [3251 4 ]2-31)'23. 25 
切 比 雪夫 距离 (Chebychev distance); 在 某 些 情况 下 ， 当 需要 利用 任何 一 维 变量 来 区 分 两 
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个 对 象 时 ， ee 该 距离 度量 的 计算 公式 为 : 
Distance( O; , O;) =Max( | 0, -0;,|) (11.33 
Distance(0;, 0;) =Max( |5 -8 |, rE 9 中 . Powe | Wee 
Distance(O,,; O,;) =Max( |5 -3 f, |6-4], |4-5|, |9-3]) =6 
Distance(‘O0,, O,) =Max( |8-3|, [9-4], |3-5S}, |2-3]|) =5 
4 3B % ( power distance) ; AANE OE RARER R EE ARE R E E R 
数 时 ， Maid 医 距 离 的 计算 公式 为 : 


Distance(O;, O;) = ( 3 F 0, |” ) : (11.4) 


其 中 , r 和 为 用 户 自 定义 参数 。 一 些 计算 例子 可 以 说 明 该 距离 度量 的 行为 。 参 数 p 用 来 控 
制 每 个 维 差 值 的 渐进 权重 ( progressive weight); 参数 + 控制 对 象 间 较 大 差 值 的 渐进 权重 。 如 
果 将 > 和 同时 设 为 2， 则 帘 距 离 等 同 于 欧 氏 距离 。 
差异 百分率 (percent disagreement) ; 如 果 分 析 中 的 数据 各 维 在 本 质 上 是 明确 分 来 的 ， 这 
种 度量 尤其 适用 。 距 离 计 算 公 式 为 : ; 
Distance(O;, O;) = PE T OT a xi n Ou FRAT] cat. 3 
例如 ， 考 虑 表 11-2。 “ 
病人 1 和 病人 2 仅仅 在 年 龄 组 的 值 上 不 同 ， 所 以 其 距离 为 : 
i tk mex =25% 
病人 1 和 病人 3 在 两 个 属性 上 存在 不 同 , :因此 
Distank O C10.) = EXE = 50% 
同 理 ， E E e 
Distance ( eS Chey = -100x 273% 
R 11-2 具有 分 类 属性 的 数据 
病人 编号 | 性 别 年 龄 组 收入 水 平 I BP 


1 M 20 -30 低 正常 
2 M 30 -40 低 正常 


3 F 20 -30 中 正常 


二 元 属性 对 象 的 相似 性 : 当 项 不 能 用 有 意义 的 p 维 测量 表示 时 ， 项 对 之 间 的 比较 通常 根 
据 某 些 特征 的 存在 和 缺失 完成 的 。 相 似 的 项 通常 具有 更 多 的 共同 特征 。 可 以 通过 引入 一 个 二 
元 变量 来 描述 是 否 具 有 茶 种 特征 ， 如 果 具 有 则 该 特征 变量 值 为 1， 否 则 变量 值 为 零 。 考 虑 如 
下 例 于 。 # 11-3 WHT 5 个 个 体 的 符 征 。 
表 11-3 5 个 个 体 的 特征 


身高 体重 嘴唇 KK HFJ 性 别 
个 体 1 155cm 65kg 薄 卷曲 右手 x 
个 体 2 172cm 7Skg 厚 直 发 右手 B 
个 体 3 162cm 68kg w 卷曲 右手 Y; 
个 体 4 168cm 62kg 厚 卷曲 右手 站 
个 体 5 175cm 80kg 厚 卷曲 左手 男 
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EXTERA. A Ass A Ags A, RNANA.: 
X, = 1 WRH A 2165cm, Zi) xX, =0 
X, = 1 如果 体重 宇 70kg， 否 则 XX, =0 
X,= 1 WRA), F X, =0 
X,= 1 如 果 头 发 卷曲 ， 否 则 X, =0 
X; =l 如 果 习 惯用 右手 ， 否则 X; =0 
X。 = 1 如 果 是 男性 ， 否 则 X。 =0 

个 体 1 和 个 体 2 的 6 个 工 元 变量 的 得 分 如 表 11-4 所 示 。 


表 11-4 个 体 1 和 个 体 2 的 变量 得 分 








Y x x x, x: wi 
个 体 1 0 0 ee 1 1 1 
个 体 2 1 l 1 0 1 0 





现在 ， 我 们 创建 另外 一 个 矩阵 ( 见 表 11-5) 来 统计 匹配 和 非 匹 配 的 数量 。 HEMETEH a, b, 
c, d 通过 如 下 计算 方式 获得 : 

两 个 个 体 得 分 都 是 “1 的 属性 数 = a =1。 

个 体 1 得 分 为 "17 而 个 体 2 的 得 分 为 “0” 的 属性 数 =b =2。 

个 体 1 得 分 为 “0” 而 个 体 2 的 得 分 为 “1” 的 属性 数 =c =3。 

两 个 个 体 的 得 分 都 为 “0” 的 属性 数 = d =1。 








表 11-5 得 分 和 矩阵 
个 体 2 合计 
i 0 
1 a= i b= 2; i 3 
人 人 
ret 0 fe pte e=3 一 3 
合计 4 2 6 





现在 ,我 们 如 何 测量 相似 性 (或 者 相 异 性 )? 尽管 基于 前 面 的 计算 公式 所 得 的 距离 可 以 
用 来 测量 相似 性 ， 但 是 其 缺陷 在 于 赋予 0-0 和 1-1 匹配 相同 的 权重 。 在 某 些 例子 中 ， 一 个 1- 
1 匹配 关于 相似 性 的 上 暗示 比 0-0 匹配 更 强烈 。 例 如 ， 当 把 人 进行 分 类 时 ， 如 果 两 个 人 都 能 阅 
读 梵文 ， 与 不 具备 这 个 能 力 的 人 相 比 ， 这 是 两 个 人 相似 的 一 个 强 有 力 的 证 据 。 因 此 ,将 0 - 
0 匹配 作用 打折 扣 甚 至 于 完全 忽略 也 是 合理 的 。 为 了 便于 差别 对 待 0 -0 匹配 和 1 -1 匹配， 
人 们 提出 了 许多 定义 相似 性 系数 的 方案 。 表 11-6 列 出 了 几 种 相似 性 度量 及 其 对 应 的 原理 。 


表 11-6 相似 性 系数 








: oe ”给 0-0 匹配 和 1-1 匹配 相等 的 权重 
: se Rac 给 0.0 匹配 和 二 1 匹配 两 偿 的 权重 
2(a+d)+b+c L ARGA Mh Pi 
a+d 1 
À a+d+2(b+c) 给 不 匹配 对 两 倍 权重 


4 分 子 中 无 0-0 匹配 
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( BE) 
编 号 R 数 原 理 

a 
5 Pr wn 将 0-0 匹配 视 为 不 相关 

2a 不 给 0-0 匹配 分 配 权 重 ， 给 1-1 匹配 双 倍 分 配 两 
2a+b+c 倍 权 重 
7 a 分 子 、 分 母 不 包含 0-0 匹配 ， 不 匹配 对 分 配 两 

a+2(b+c) 倍 权 重 

8 = 不 考虑 匹配 与 非 匹配 之 比 以 及 0-0 匹配 


采用 相似 性 系数 1 给 所 有 匹配 分 配 相同 的 权重 ,我们 有 


继续 采用 表 11-6 中 的 相似 性 系数 1， 我 们 计算 表 11-3 中 其 余 个 体 对 的 相似 度 。 计 算 结 
果 用 5x5 对 称 矩 阵 表 示 ( 见 图 11-9) 。 


2) 4760) A 


“13 |-4/6 3/6 {1 
4| 4/6 3/6 2/6 1 
SO SO. vere 270. l 





图 11-9 相似 性 矩阵 
基于 相似 度 矩 阵 的 值 ， 我 们 可 以 得 出 结论 : 个 体 2 和 个 体 5 最 相似 ， 而 个 体 1 和 个 体 5 
相似 性 最 小 。 其 余 的 个 体 对 的 相似 度 位 于 这 两 个 极 值 中 间 。 
我 们 已 经 讲述 了 如 何 构造 距离 和 相似 性 ， 并 且 总 是 可 以 由 距离 来 构造 相似 性 。 例 如 ， 我 
们 可 以 设 


其 中 ，1>Sx>0 表示 项 i 和 之 间 的 相似 性 ，di 为 对 应 的 距离 。 由 于 满足 非 负 条 件 并 且 最 大 
相似 度 5; =1， 度 量 

| ds Sa l eSa) LAERT) 
具有 距离 的 特性 。 


11.1.2 聚 类 的 基本 类 型 


广义 来 讲 ， 聚 类 可 以 分 为 两 类 (参见 图 11-10): 

1 ) 划 分 算法 : 在 划分 算法 中 ， 我们 构造 不 同 的 划分 并 用 某 种 标准 来 评价 它们 。 
2) 层 次 算法 : 在 层次 算法 中 ， 我 们 用 某 种 标准 来 对 一 组 对 象 进行 层次 分 解 。 
图 11-10 显示 了 用 两 种 方法 所 得 到 的 不 同 结果 。 
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层次 的 





a 


Narayanan 的 家 庭 成 员 
图 11-10 基本 聚 类 形式 


聚 类 算法 的 期 望 特征 : 下 面 列 出 了 聚 类 算法 的 期 望 特征 : 

。 可 伸缩 性 (时 间 和 空间 ) 

© 可 以 处 理 不 同 数据 类 型 

。 可 以 发 现任 意 形状 的 复 

。 确定 输入 参数 所 需要 的 领域 知识 需求 最 少 

。 能 够 应 对 噪声 和 离 群 点 

。 对 输入 记录 顺序 不 敏感 

。 可 以 整合 用 户 特定 的 约束 

。 可 解释 性 和 可 用 性 

层次 聚 类 : 我 们 可 以 通过 两 种 方法 构造 层次 树 : 

自 底 向 上 (凝聚 ) : 最 初 ， 我 们 假定 所 有 项 属于 一 个 单独 的 徐 ， 然 后 寻找 最 佳 配 对 并 合 
并 成 一 个 新 的 徐 。 在 图 11-11 中 ， 聚 类 过 程 由 底部 开始 ， 最 终结 果 显 示 在 最 上 面 。 

自 项 向 下 (分 裂 ) : 开始 将 所 有 数据 看 作 一 个 徐 ， 考 虑 所 有 可 能 的 方法 ， 将 簇 一 分 为 二 。 
选择 最 佳 划分 ， 并 递归 地 在 这 两 个 搁 上 继续 进行 划分 。 

最 常用 的 一 个 算法 是 凝聚 方法 ， 下 面 我 们 将 对 其 进行 详细 讲述 。 

凝聚 层次 聚 类 : 依靠 共同 的 距离 度量 ， 聚 类 过 程 从 寻找 距离 最 近 的 簇 开始 ， 并 把 这 两 个 
禾 合 并 为 一 个 徐 。 在 过 程 开始 之 初 ， 让 每 个 对 象 自 成 一 簇 ， 每 个 簇 都 以 选 定 的 距离 度量 定 
义 。 然 而 ， 当 几 个 对 象 被 连接 在 一 起 时 ， 我 们 如 何 确定 这 些 新 簇 之 间 的 距离 ”图 11-12 和 图 


220 : £1 





11-13 说 明了 这 个 问题 。 


开始 ， 每 个 项 自 成 一 个 艇 ;寻找 最 佳 配 
对 并 合并 成 一 个 新 的 侯 。 重 复 该 过 程 ， 
耳 到 所 有 的 簇 融合 在 一 起 。 





图 11-11 YR Ty ESR 


我 们 由 数据 库 中 每 对 对 象 间 距离 
的 距离 矩阵 开始 
aw, & )=8 


ah Er 





图 11-12 层次 聚 类 的 第 1 步 : :生成 两 两 距离 矩阵 


对 于 图 11-12， 对 象 4 和 对 象 5 间 的 距离 是 1， 因 此 我 们 合并 它们 。 现 在 我 们 只 剩 四 个 
对 象 一 一 三 个 单独 的 对 象 和 一 个 包含 两 个 单独 对 象 的 合成 对 象 。 我 们 继续 生成 男 一 个 4 x 
的 距离 矩阵 。 由 于 前 三 个 对 象 没有 发 生 改 变 , ,因此 矩阵 元 素 值 不 变 ( 参照 图 11-13 ) 。 因 为 第 
四 个 对 象 为 合成 对 象 ， 所 以 计算 出 它 与 其 余 三 个 对 象 的 距离 是 个 问题 。 我 们 该 如 何 定 义 两 个 
合成 对 象 间 的 距离 ? 

换言之 , 我们 需要 一 个 连接 或 合并 规则 来 确定 何 时 两 个 簇 已 足够 相近 ， 可 以 连接 在 一 
起 。 存 在 很 多 种 可 能 性 。 例 如 ， 当 两 簇 中 的 任意 两 个 对 象 比 各 自 的 连接 距离 更 接近 ， 我 们 便 
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可 以 将 两 个 族 连 接 在 一 起 。 换 句 话 说, RATT A Td “UE SB” OR A ERB PTT IE 
叫做 单 连接 (single linkage)。 这 个 规则 生成 “纤维 状 " 类 型 的 徐 ， 即 和 族 闻 仅仅 是 靠 单个 紧密 靠 
近 的 对 象 而 连接 在 一 起 。 换 一 种 做 法 ,我们 也 可 以 用 族 间 距离 最 远 的 近邻 ， 该 方法 称 为 完全 
连接 (complete linkage) 。 如 上 所 述 ， 还 存在 其 他 众多 的 连接 规则 。 


在 凝聚 聚 类 的 第 一 次 迭代 中 ， 
A Cai : 
我 们 合并 了 Re 。 因 此 我 


们 需要 将 她 们 从 矩阵 中 移出 。 


我 们 需要 增加 新 的 单独 聚 


Caen 
类 Be 到 我 们 新 的 


更 小 矩阵 。 


d( af x P = 


图 11-13 ”层次 聚 类 中 连接 (凝聚 ) 的 需求 
单 连接 (最 近邻 ) :如 上 所 述 ， 在 该 方法 中 ， 两 个 饶 的 距离 由 不 同 徐 的 两 个 最 靠近 的 对 
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SS BES ee TEE Ze, BRA EA FRRR KR NER KE EERS LE 11-14 
和 图 11-15) 。 在 某 种 意义 上 ， 这 个 规则 将 对 象 囊 起 来 形成 饼 ， 聚 类 结果 趋向 于 表示 长 “ 链 ”。 


d(c,,\¢,) = min jd(o, O)|} (11.8) 
I C, 
d,, 
A 11-14 单 连 接 


图 11-15 用 图 形象 地 解释 了 该 方法 。 





采用 单 连接 (最 近邻 ) 
了 ee 5 £ 
lags ， A) min[ dC, A ae, §)) 4 






Iar a. ah $ ), d( Ff 
af a lie 二 


图 11-15 采用 单 连接 规则 进行 层次 聚 类 例子 


完全 连接 (最 远 邻 ) : 在 该 方法 中 ， 两 个 艇 的 距离 由 隶属 于 不 同 簇 的 距离 最 远 的 两 个 对 

象 间 的 距离 所 决定 ( 即 最 远 邻 的 距离 ) 。 当 对 象 在 事实 上 自然 形成 截然 不 同 的 复 时 ， 这 种 方 

法 的 效果 通常 很 好 。 如 果 簇 倾向 于 有 点 修长 或 者 具有 “ 链 状 "特性 时 ， 不 适用 该 方法 。 图 
11-16 说 明了 完全 连接 聚 类 计算 。 

AK Ci s ¢,) = min id(o, 0)| (11:9) 
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d,s 


K 11-16 完全 连接 


组 平均 (unweighted pair- group average): 在 该 方法 中 ， 两 个 簇 的 距离 就 是 属于 不 同 簇 的 
所 有 对 和 象 对 的 距离 的 平均 值 (参见 图 11-17)。 当 对 象形 成 自然 的 不 同 簇 时 ， 该 方法 非常 有 
效 。 然 而 ， 该 方法 对 修长 、“ 链 状 ” 簇 的 效果 也 很 好 。 在 Sneath 和 Sokal 的 书 中 [1] ， 用 缩写 
UPGMA 来 表示 该 方法 。 


doce) aa Pa 0)| (11. 10) 
Hp, n An, 分 别 为 两 个 簇 包 含 的 样本 数 。 









Distance= 


(d,,+d,,+d,,+d,,+d,,+d,.) 
6 





图 11-17 逐 对 平均 距离 


加 权 组 平均 (weighted pair- group average): 除了 在 计算 时 各 个 簇 的 大 小 ( 簇 所 包含 对 
象 数 ) 被 用 作 权 重 外 ， 该 方法 与 组 平均 方法 一 样 。 当 簇 的 大 小 可 能 存在 严重 不 对 等 的 情 
形 时 ， 应 该 采用 该 方法 (而 不 是 前 面 方法 ) 。 加 权 的 组 平均 距离 可 以 采用 缩写 WPGMA 
表示 。 

组 质心 ( unweighted pair-group centroid) ; HY Jas ( centroid ) 就 是 簇 在 多 维 空间 的 平 
均 点 。 从 某 种 意义 上 说 ， 它 是 簇 的 重心 (centre of gravity), FATE, ATR 
由 簇 的 质心 之 间 的 距离 确定 。Sneath 和 Sokal( 1973) 用 缩写 UPGMC 表示 该 方法 。 

加 权 组 质心 (weighted pair- group centroid): 除了 计算 时 考虑 徐 的 大 小 ( 簇 所 包含 对 象 数 ) 
差异 外 ， 该 方法 与 上 面 的 组 质心 方法 一 样 。 因 此 ， 当 考虑 簇 大 小 的 差异 时 ， 该 方法 优 于 不 加 
权 的 组 质心 方法 。Sneath 和 Sokal( 1973 ) 用 缩写 WPGMC 表示 该 方法 。 

沃 德 法 (Ward's method) : 该 方法 不 同 于 其 他 所 有 方法 ， 它 采用 方差 分 析 法 来 计算 簇 间 距 
离 。 人 简 言 之 ， 该 方法 试图 最 小 化 每 步 形成 的 任意 两 个 簇 的 平方 和 (SS)。 关 于 该 方法 的 详细 
描述 ， 请 参阅 Ward( 1963 ) [2 ]。 通 常 ， 该 方法 被 认为 非常 有 效 , 但 是 它 产生 的 簇 一 般 比 
较 小 。 
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采用 不 同 连接 的 聚 类 的 例子 
考虑 表 11-7 给 出 的 距离 阵列 。 表 | 
H ERRNO, O,, O;,, O, 同 的 #11-7 4 个 对 象 间 相互 距离 
距离 。 为 了 说 明 连 接 及 其 各 种 形式 ， 通 or ee eee 
过 表 11-7 中 给 出 的 数据 ， 观 察 相 对 于 
上 述 问 题 它 的 各 种 形式 。 Dalije g 11 2 0 
采用 单 连接 的 例子 。 在 距离 矩阵 pi > 3 0 


中 ， 选 择 最 小 的 距离 值 ， 这 里 d(O,, 
0, ) 是 最 小 的 且 等 于 1。 采用 单 连 接 度量 作为 距离 度量 ,合并 O, 和 0, 形成 新 的 对 象 0, ,。 
表 11-8 显示 了 有 关 的 各 个 步骤 。 现 在 我 们 有 三 个 对 象 ， 其 中 对 象 0, ,是 一 个 子 簇 (合成 
对 象 )。 为 进一步 聚 类 ,计算 这 三 个 对 象 相互 间 的 距离 。 


表 11-8 应 用 单 连接 规则 的 距离 矩阵 





O, 0, O; 0, 
0; 0 
O, Ce 0 
O; 11 2 3 
O, 5 3 4 0 n 
O12 0; O4 1 
O12 0 
ge. 
O4 3 4 0 
O123 O4 
Oiza 0 1 2 3 4 
Or 0 图 11-18 单 连接 
依据 单 连接 ， 可 知 
Distance( O01,, O03) = minj Distance(O,, 03), Distance(O,, O;) | 
smuni tl. 2) 32 


上 面 所 有 距离 来 源 于 表 11-7。 类 似 地 ， 
Distance( O01,, O,) =min! Distance(O,, O01,), Distance(O,, O,)} . 
= min(5, Bis} 
按照 表 11-7, Distance(O,, O,)4F 4o 
有 了 上 面 三 个 距离 ,我 们 构造 第 二 个 矩阵 如 表 11-9 所 示 。 它 与 表 11-8 中 的 第 二 个 矩阵 
相同 。 
表 11-9 采用 单 连接 的 簇 间距 离 


O12 0, 0, 
0, 0 : 
0, 2 0 
0, 3 4 0 


得 到 簇 间距 离 的 单 连接 规则 可 写 为 : 
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Distance(P +0, R) =min} Distance(P, R), Distance(Q, R) | (Tia 

HEt, P+Q 表示 两 个 子 艇 的 并 。 

根据 单 连接 准则 ， 由 于 对 象 0 ,和 0; 是 最 接近 的 对 和 象 ， 因 此 现在 将 对 象 0 ,和 0, 结合 
生成 新 的 族 O; ,3。 

表 11-8 中 的 最 后 一 个 矩阵 的 元 素 是 通过 如 下 公式 得 到 的 : 

Distance( 0,33, O,) = mm Distance Oyz, O,), Distance(O,, O,) | 
=min(3, 4¥}=3 

注意 ， 计 算 这 个 距离 时 ,我们 只 需要 参考 上 面 步骤 得 到 的 矩阵 ， 即 表 11-9 中 给 出 的 
FE ME 

最 后 ， 得 到 合成 的 簇 O, ,4:， 形 成 的 聚 类 的 层次 可 以 用 一 个 树 状 图 表示 ， 如 图 11-18 
所 示 。 : 
根据 图 11-18 所 示 的 树 状 图 ， 采 用 1 个 距离 单位 ;对 象 0; 和 0, 构成 一 个 簇 ; 采用 2 个 
距离 单位 ， 对 和 象 0, 0, MO; 组 成 一 个 簇 ; 当 采 用 3 个 距离 单位 时 ， 对 象 0,、0,、0, MO, 
构成 一 个 复合 簇 。 

采用 完全 连接 的 例子 。 为 了 解释 完全 连接 ， 考 虑 上 面 的 例子 。 其 过 程 和 单 连接 类 似 ， 只 
是 规则 变 为 选择 R 的 对 象 和 族 P、0Q 的 对 象 间 的 最 大 距离 ， 使 得 假设 所 有 成 员 都 在 该 最 大 距 
离 之 内 ， 即 

Distance(P +Q, R) =maxi Distance(P, R), Distance(Q, R) | 

让 我 们 回 到 矩阵 的 例子 。 在 这 个 例子 中 ， 对 象 0 和 0, 最 接近 ,合并 成 第 一 个 子 簇 

Oy 。 现 在 我 们 采用 完全 连接 规则 构造 复 间 距离 矩阵 。 
Distance(O,,, O;) =max! Distance(O,, O;), Distance(O,, O;) | 
| =e l, H =i 
类 似 地 ， | 
Distance(O,,, O,) =maxj{ Distance(O,, O,), Distance(O,, O,) | 
= mast St 3) =o 

按照 表 11-7, Distance(O,, O,) 等 于 4。 | 

有 了 上 述 三 个 距离 ， 我 们 构造 表 11-10 所 示 的 矩阵 。 

表 11-12 列 出 了 第 三 个 矩阵 ， 它 显示 了 整个 过 程 。 

K 11-10 中 和 矩阵 的 最 小 值 为 4， 因 此 我 们 将 对 象 0; 和 04 合并 生成 新 的 对 象 复 0,,。 

我 们 继续 寻找 下 一 个 簇 间距 离 矩 阵 。 我 们 现在 只 剩 两 个 簇 0O ,和 0;4( 见 表 11-11)。 


表 11-10 采用 完全 连接 的 簇 间距 离 表 11-11 对 象 O, :和 O,4 间 距离 矩阵 
O12 O; Os 机 o, 
O12 2 0 0 
Os i z | oR 11 0 
O, 5 0 3,4 


为 了 填充 矩阵 元 素 ， 我 们 参照 表 11-10 并 应 用 完全 连接 规则 。 
Distance(O,,, O34) =max{Distance(O,,, O,), Distance(O,,, O,) } 
=max(113,5);= H 
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表 11-12 完全 连接 规则 
0; Oz 0, O; 
O, 0 
be ta) Oz I 0 
Tinie N 11 2 0 
Or; 5 3 4 0 
0; Oz 03 O; 
O, 0 
eS 9 
0, 1i 2 0 
O4 5 3 4 
O12 0; O4 0 
O12 0 
0; 2 0 
O, 3 0 
O12 Os4 
O12 0 
O34 0 
树 状 图 如 图 11-19 所 示 。 
11 
10 
9 
8 
T 
6 
5 
4 
3 
2 
1 
1 2 3 4 


图 11-19 采用 完全 连接 规则 表示 表 11-7 中 数据 的 树 状 图 


采用 平均 距离 连接 的 例子 。 其 聚 类 过 程 和 上 面 的 例子 相似 ， 只 是 连接 采用 簇 P、Q 和 对 
象 尺 间 的 平均 距离 。 
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我 们 先 将 对 象 0, 和 0, HAIG AE 0, ,。 依 据 平均 距离 连接 规则 ， 徐 间距 离 矩 阵 元 素 计 
算 如 下 : 


Distance( O01 ,, 03) = E | ( Distance(O,, O3) + Distance(O,, O;) } 
=(5)a eof be 5 
类 似 地 ， 
Distance( 0,2, O04) = (3) | Distance( 0, , O,) + Distance(O,, O,) | 
= 全 15 +3} =4 
由 表 11-7 得 到 Distance(O,, O,) =4。 
K 11-13 给 出 了 由 此 得 到 的 结果 矩阵。 表 11-13 ARER 
参阅 表 11-13 ， 我 们 观察 到 矩阵 中 有 两 个 元 素 具 有 最 0i” 0 Oz 


小 值 。 我 们 可 以 选择 其 中 的 任意 一 个 ， 然 而 这 会 导致 树 状 On 0 

图 在 形状 上 产生 两 处 轻微 改变 。 我 们 选择 合并 对 象 0 和 Os 

Q, 生成 Q, 40 ee 
我 们 现在 构造 徐 0, ,和 0;, 的 驴 间 距离 。 


Distance( 0,2, 034) = (7) | Distance(O, 2, O,) +Distance(O,,, O,) | 
=(5)(65 +4) =5.25 
这 个 距离 也 可 以 按 下 式 计 算 : 
人 l Disa 0: 0.) Dlankal ay) 
+ Distance(O,, O,) +Distance(O,, 0,)| =(z)ai+s +473) 25,25 


#2 11-14 显示 了 整个 处 理 过 程 ， 对 应 的 树 状 图 如 图 11-20 所 示 。 
表 11-14 平均 距离 连接 示意 图 


O; O02 Os O4 
O; 0 
D={d) Oz 1 0 
R 11 2 
O4 5 4 0 
O: 0; O3 O4 
O, 0 
oii CYA iè 
O; 11 2 0 





228 ll = 





1 2 3 4 
图 11-20 采用 平均 距离 连接 规则 的 表 11-7 数据 的 树 状 图 


层次 聚 类 的 优点 

1) 我 们 可 以 通过 观察 树 状 图 来 确定 正确 的 复数 目 。 参 见 下 面 的 图 11-21。 在 这 个 例子 中 ， 
两 个 高 度 分 离 的 子 树 强 烈 暗示 是 两 个 簇 。( 令 人 遗憾 的 是 ， 很 少 有 事情 能 如 此 清晰 地 分 开 。) 

2) 层 次 的 本 质 很 好 地 反映 了 人 类 对 某 些 领域 的 直觉 。 

3 ) 树 状 图 的 一 个 潜在 应 用 是 可 以 用 来 检测 离 群 点 。 

层次 聚 类 的 缺点 : 层次 聚 类 有 时 会 表现 出 无 意义 的 或 者 不 合 逻 辑 的 模式 。 例 如 ， 在 图 
11-22 所 展示 的 肾 类 ， 紧 密 地 聚合 澳大利亚 、 安 圭 拉 岛 、 圣 赫 勒 拿 岛 等 是 有 意义 的 ， 因 为 这 
些 国家 都 曾经 是 英国 的 殖民 地 。 但 是 ， 对 尼日尔 和 印度 进行 紧密 聚合 是 完全 不 合 逻 辑 的 ， 它 
们 之 间 毫 无 联系 。 

尼日尔 国旗 (参见 图 11-22) 自 上 而 下 由 橙 、 白 、 绿 三 个 平行 相等 的 长 方形 组 成 ， 白 色 部 
分 中 间 有 一 个 检 色 圆 轮 ， 象征 太阳 。 检 色 象征 尼日尔 北部 边界 的 沙漠 。 绿 色 代 表 南 部 和 西部 
美丽 定 馆 的 平原 和 维系 它们 的 尼日尔 河 ， 也 象征 博爱 和 希望 。 白 色 和 象征 纯洁 和 希望 。 
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这 些 高 度 分 离 的 子 树 强 烈 暗 示 是 两 个 的 





b) 
单一 孤立 的 分 支 暗示 该 数据 点 与 其 他 数据 存在 显著 差异 





c) 


图 11-21 使 用 树 状 图 发 现 离 群 点 





a ica = bak 
‘meas rE By 


x 


澳大利亚 SS RE MW ” 英国 KEE AE EAK “印度 ”爱尔兰 
岛 及 属地 i AU 共和 国 i 
威 奇 群 岛 


a ai OD re < 
D aie oo | 





图 11-22 不 合 逻 辑 的 聚 类 模式 
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EUS A = A, SENOS, PRL, EEH, RSE. HAAR 
有 一 个 海军 蓝 色 圆 轮 ， 代 表 Dharma Chakra， 即 阿 苏 迦 狮 都 的 法 轮 。 中 间 的 符号 “ 纺 车 ”可 以 
追溯 到 公元 前 2 Hed, FARE BA ARIE; 白色 象征 纯洁 和 真理 ;绿色 表示 生长 
和 吉祥 。 
演示 程序 : 随 书 所 附 光盘 第 11 章 内 包含 一 个 applet。 你 可 以 运行 该 程序 。 指 令 如 下 所 示 : 








$ ee, TEER PS 
<2; UPGMA tree 





D : p" 3 na EE E O A E a 
4 to Meg Text, 5 CA eh $ ce EE. 
5 E aE E P RREAN, 和 a E 
Sequence caurt 3 oa fidtees 


图 11-23 HAR applet 


e {ù F “Build trees” 生 成 UPGMA. 。 

。 编辑 距离 矩阵 的 字段 (只 有 下 面 的 字段 可 以 被 编辑 ， 当 重新 生成 树 时 ， 这 个 矩阵 自动 
被 转换 成 对 称 和 矩阵 ) 。 | 

o 如 果 想 改变 距离 矩阵 的 大 小 ， 编 辑 “Sequence count” 字 段 并 按 下 “New input size”。 

o fù F “Random data” 用 随机 距离 数据 来 填充 矩阵 。 

。 出 于 安全 原因 ， 当 在 浏览 器 中 运行 applet AY, “Print tree” 按 钮 不 起 作用 。 

层次 聚 类 方法 总 结 

© 无 需 事先 指定 簇 的 数目 。 

© 层次 本 质 很 好 的 反映 了 人 类 对 某 些 领域 认识 的 直觉 。 

o 可 伸缩 性 不 好 : 时 间 复 杂 性 至 少 为 0(n ) ， 其 中 必 是 所 有 对 象 的 数量 。 

© 和 任何 启发 式 搜索 算法 一 样 ， 局 部 最 优 是 一 个 问题 。 

© 对 结果 的 解释 具有 主观 性 。 


11.2 划分 聚 类 


k- 均 值 聚 类 


k- 均 全 (MacQueen ，1967 ) 是 用 来 解决 著名 的 聚 类 问题 的 最 简单 的 非 监督 学 习 算 法 之 一 。 
该 过 程 遭 循 一 个 简易 的 方式 ， 将 一 组 数据 划分 为 预先 设 定 好 的 大 个 簇 。 其 主要 思想 是 为 每 个 
艇 定义 一 个 质心 。 设 置 这 些 质 心 需要 一 些 技巧 ， 因 为 不 同 的 位 置 会 产生 不 同 的 聚 类 结果 。 因 
此 ， 较 好 的 选择 是 使 它们 相互 之 间 尽 可 能 远 。 接 下 来 将 数据 中 的 每 个 点 与 距 它 最 近 的 质心 联 
系 起 来 。 如 有 果 再 无 数据 点 未 与 相关 质心 相 联 ， 那 么 第 一 步 就 结束 了 ， 早 期 聚合 过 程 也 相应 完 
Wo ER, 我们 根据 上 一 步 所 产生 的 结果 重新 计算 个 质心 作为 各 个 簇 的 质心 。 一 旦 获得 
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个 新 的 质心 ， 我 们 需要 重新 将 数据 集中 的 点 与 距 它 最 近 的 新 质心 进行 绑 定 。 一 个 循环 就 此 产 
生 。 作 为 循环 的 结果 ， 我 们 发 现 上 个 质心 逐步 改变 它们 的 位 置 ， 直 至 位 置 不 再 发 生变 化 ， 即 
质心 不 再 移动 为 止 。 
k- 均 信 非 常 适用 于 产生 球状 艇 。 大 均值 方法 是 数值 的 、 非 监督 的 、 非 确定 的 、 和 迭代 的 。 
最 后 ， 该 算法 旨 在 最 小 化 一 个 目标 函数 一 一 在 此 处 ， 是 误差 平方 函数 。 目 标 函 数 为 : 


J= 2 2a? | 

RP, ||? -C 为 数据 点 x 到 簇 中 心 6) 的 距离 度量 ?也 指示 个 数据 点 与 其 各 自 簇 中 
心 的 距离 。 

算法 包括 以 下 几 个 步 又: 

1) 决 定 大 的 取 值 。 

2) 初 始 化 大 个 簇 中 心 (如 果 需 要 可 以 任意 设置 )。 

3 ) 通 过 把 对 象 分 配给 最 近 的 能 中 心 来 确定 N 个 对 象 的 能 隶属 关系 。 

4) 假 设 上 面 所 得 的 隶属 关系 是 正确 的 ， 重 新 估计 个 簇 中 心 。 

5) 如 果 在 最 后 一 次 迭代 中 N 个 对 象 无 一 再 改变 隶属 关系 ， 则 退出 ;否则 ， 转 到 第 3 步 。 

尽管 可 以 证 明 这 个 过 程 总 是 收敛 的 ,但 是 -均值 算法 并 不 能 保证 找到 对 应 于 最 小 化 全 
局 目标 函数 的 最 优 解 。 算 法 对 于 随机 选取 的 初始 簇 中 心 非常 敏感 ， 可 以 通过 多 次 执行 该 算法 
来 减少 初始 中 心 敏感 的 影响 。 

例子 ”假设 我 们 现在 有 个 同一 类 型 的 样本 特征 向 量 zx ，x,，…，x,， 并 且 我 们 知道 它 
们 属于 大 个 紧凑 的 能 (<n) 。 令 m 表示 属于 科 ;的 所 有 向 量 的 均值 。 如 果 艇 与 能 是 良好 分 
离 的 ， 则 可 以 用 最 小 距离 分 类 器 来 分 开 它们 。 也 就 是 说 ， 如 果 ||x -m, | 是 大 个 距离 中 最 小 
的 ， 则 我 们 可 以 判定 x 属于 和 比 i 这 表明 可 以 用 如 下 步 又 来 求 个 均值 : 

对 均值 m,m,,…,m 做 初始 猜测 


Repeat 
用 估算 出 的 均值 对 样本 进行 分 类 
For Tftromn'd tok 
HIR i 中 的 所 有 样本 的 均值 取代 m 
End for 


Until 再 没有 均值 发 生 改 变 ; 
如 图 11-24 ~ A 11-28 所 示 ， 给 出 了 一 个 例子 说 明 均 值 m,, m, 和 m, WAR [a] =e AYP 
心 移动 。 


图 11-24 -均值 聚 类 : 第 1 步 


hn x 1l # 





图 11-27 kk 均值 聚 类 : 4 
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图 11-28 k- 均 值 聚 类 : 第 5 步 


算法 : k- 均 值 ， 距 离 度量 : 欧 氏 距离 
评论 : 这 是 一 个 简化 的 k- 均 值 过程 。 它 可 以 被 看 作 是 一 个 贪心 算法 ， 用 于 将 xn 个 样本 
划分 为 个 族 ， 使 得 所 有 样本 与 其 徐 中 心 的 距离 平方 和 最 小 。 它 具有 如 下 缺点 : 
e 没有 指明 初始 化 均值 的 方法 。 常 用 方法 是 随机 选取 名 个 样本 作为 均值 。 
e 产生 的 结果 依赖 于 均值 的 初始 值 ， 经 常 发 生得 到 次 优 划 分 的 情况 。 解 决 方法 是 多 次 尝 
试 不 同 的 初始 值 。 
o 可 能 发 生 距 离 徐 中 心 m; 最 近 的 样本 集 为 空 的 情况 ， 因 此 m, 将 得 不 到 更 新 。 这 是 一 个 
必须 处 理 的 国手 问题 ， 但 是 我 们 忽略 该 问题 。 
© 结果 依赖 于 |x -m; 上 的 度量 单位 。 一 个 常用 解决 方法 是 用 标准 差 规 范 化 各 个 变量 ， 
虽然 这 并 非 总 是 可 取 的 。 
o 结果 依赖 于 此 值 。 
鉴于 我 们 通 稼 无 法 知道 存在 几 个 簇 ， 最 后 一 个 问题 是 非常 环 手 的 。 遗 憾 的 是 ， 对 给 定数 
据 集 ， 也 不 存在 通用 理论 解决 方案 来 找到 它 的 复数 。 一 个 简单 方法 是 ， 采 取 不 同 的 大 值 ， 得 
到 多 个 运行 结果 ， 比 较 这 些 结果 ， 选 择 满 足 给 定 准 则 的 最 好 结果 。 但 是 需要 注意 ， 因 为 根据 
定义 ， 增 加 开会 使 误差 函数 值 更 小 ， 但 也 会 增加 过 分 拟 合 的 风险 ; 
该 方法 的 优点 : 
o 如 末 变 量 很 大 ，k- 均 值 比 层 次 聚 类 的 计算 速度 更 快 (如 果 开 很 小 ) 。 
。 与 层次 聚 类 相 比 ，k- 均 值 可 以 得 到 更 紧密 的 复 ， 尤 其 是 对 于 球状 簇 。 
该 方法 的 缺点 : 
© 难以 比较 聚 类 结果 的 优 劣 (例如 ， 不 同 的 初始 划分 或 者 有 值 会 影响 输出 结果 )。 
© 固定 的 复数 使 得 很 难事 先 对 大 值 做 出 预测 。 
© 对 于 非 球状 簇 效果 不 好 。 
不 同 的 初始 划分 得 到 不 同 的 最 终 聚 类 结果 ， 使 用 相同 的 和 不 同 的 有 值 运行 程序 ， 比 较 得 
到 的 结果 是 有 帮助 的 。 


11.3 kk- 中 心 点 | 
k- 均 仁和 kk- 中 心 点 拥有 相同 的 过 程 。 在 k- 中 心 点 算法 中 ， 只 有 样本 空间 中 的 数据 点 可 
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以 作为 中 心 点 ; 然而 ， 在 上 -均值 算法 中 ;空间 中 的 任何 点 (接近 数据 点 或 数据 点 本 身 ) AB 
以 成 为 均值 点 。 通 过 计算 数据 点 和 假设 的 中 心 点 之 间 的 代价 ， 中 心 点 或 者 被 保留 或 者 被 交 
换 ， 下 到 那些 假设 的 中 心 点 不 再 更 改 为 止 
k- 中 心 点 是 一 个 典型 的 划分 算法 。 对 于 一 个 给 定 的 k， 采 用 该 算法 的 目标 是 在 数据 集中 
寻找 上 个 代表 ， 使 得 把 每 个 对 象 划 归 到 它 最 邻近 的 代表 所 表示 的 簇 中 时 ,对 象 和 代表 的 距离 
和 最 小 。 
算法 
1 ) 任 意 选 取 尼 个 对 象 作为 初始 中 心 点 (代表 ) 
2 ) Repeat 
把 剩余 对 象 分 配 到 距 它 最 近 的 中 心 点 所 在 的 复 ; 
随机 选择 一 个 非 中 心 点 对 象 0; 
计算 随机 用 0 交换 :0; 的 总 代价 S; \ 
如 果 S<0， 则 用 0 交换 0;,， 形 成 新 的 个 中 心 点 的 集合 ; 
Until 无 变化 发 生 
3 ) 结束 
k- 中 心 点 算法 工作 方式 
k- 中心 点 聚 类 算法 的 基本 策略 是 ， 首 先 在 数据 中 为 每 个 簇 随意 找 一 个 代表 对 象 ， 从 而 在 nn 
个 对 象 中 发 现 上 个 簇 。 这 些 作为 代表 的 对 象 称 为 中 心 点 (medoid)， 其 余 对 象 为 非 中 心 点 (non- 
medoid) 。 计 算 所 有 非 中心 点 到 每 个 中 心 点 的 距离 ， 并 将 所 有 非 中 心 点 划分 到 距 它 最 近 的 簇 ( 即 
距离 最 小 的 中 心 点 ) 。 只 要 聚 类 结果 可 以 被 改善 ， 便 不 断 地 用 非 中 心 点 替代 中 心 点 。 聚 类 质量 
通过 代价 消 数 来 评价 ,该 代价 函数 反映 了 了 对象 和 它 所 属 簇 的 代表 之 间 的 平均 相 异 性 。 
1 ) 任 意 选择 个 代表 对 象 。 
2) 计算 每 对 代表 对 象 0; 和 非 代表 间 O, HY TC;, . 
3 ) 选 择 满足 min( 0;，0;，7TC; ) 的 0，0 对 ， 如 果 最 小 的 TG; 为 负 ， 用 0; 代替 0,， 返 
回 到 第 2 步 。 | 
4) 和 否则 ， 为 每 个 非 代 表 对 象 寻找 最 相似 的 代表 对 象 。 


11.4 现代 聚 类 方法 


如 前 节 所 述 ， 传 统 的 聚 类 方法 可 以 分 为 两 类 。 现 代 聚 类 方法 可 以 分 成 五 类 ， 其 中 也 包括 
传统 的 层次 方法 和 划分 方法 。 

1) 层次 方法 

2) 划 分 方法 

3 ) 基于 密度 的 方法 

4) 基 于 网 格 的 方法 

5 ) 基于 模型 的 方法 

这 里 ， 我 们 将 简要 介绍 每 一 类 的 主要 特征 ， 及 其 近期 文献 中 出 现 的 每 类 的 主要 算法 。 

1， 层 次 方法 

层次 方法 相继 地 将 相对 较 小 的 复合 并 为 较 大 的 簇 ， 或 者 分 裂 较 大 的 簇 。 算 法 的 结果 为 一 
棵 聚 类 树 ， 称 为 树 状 图 (建立 给 定数 据 对 象 的 层次 分 解 ) 。 根据 层次 分 解 的 形成 方式 ， 该 方 
法 可 以 是 凝聚 的 ( 目 底 向 上 ， 由 单个 对 象形 成 单独 的 分 组 开始 ) 或 分 裂 的 (上 自 顶 向 下 ， 由 包含 
所 有 对 和 象 的 簇 开始 )。 层 次 聚 类 是 不 可 逆 的 ,一旦 合并 或 者 分 裂 完 成 ， 便 不 能 恢复 到 之 前 的 
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状态 。 为 了 弥补 合并 或 分 裂 的 僵硬 性 ， 可 以 通过 在 每 次 层次 划分 时 分 析 对 象 间 的 连接 关系 ， 
整合 其 他 聚 类 技术 (如 迭代 重 定 位 ) 来 改善 层次 凝聚 的 质量 。 

例子 : 

o BIRCH ( Balanced Iterative Reducing And Clustering Using Hierarchies ， 利 用 层次 方法 的 
平衡 迭代 归 约 和 聚 类 ) : 它 使 用 一 种 称 为 CF- 树 的 层次 数据 结构 ， 以 增 量 和 动态 方式 
来 划分 到 来 的 数据 点 。CF- 树 是 一 种 用 来 存储 聚 类 特征 的 高 度 平衡 树 。 它 基于 两 个 参 
数 ; 分 支 因 子 BARET, MEN BAMA) F 7。 

e CURE( Clustering Using REpresentatives ,使 用 代表 对 象 聚 类 ): 它 用 一 定数 量 的 点 来 表 
示 每 个 簇 ， 这 些 点 是 通过 选择 分 散 良 好 的 点 而 产生 的 。 然 后 对 每 个 簇 按照 指定 量 癌 簇 
质心 进行 收缩 。 它 采用 随机 抽样 和 划分 聚 类 来 处 理 大 规模 数据 库 。 

© ROCK 方法 : 用 来 对 布尔 数据 和 分 类 数据 聚 类 的 鲁 棒 的 聚 类 算法 。 它 产生 点 的 近邻 和 
pert ， 并 基于 它们 来 度量 数据 点 间 的 相似 性 和 接近 性 。 

2. 划分 

egal ae EES oe 的 簇 。 首 先 创 建 一 个 初始 划分 ， 其 中 参数 表示 要 
构造 的 划分 数 ; 然后 利用 迭代 重 定位 技术 ， 即 通过 移动 不 同 划 分 中 的 对 象 来 改善 划分 质量 。 
该 方法 适用 于 在 小 规模 或 中 等 规模 的 数据 集中 寻找 球形 禾 。 

例子 : 

ek- 均 值 : 每 个 簇 用 簇 内 对 象 的 均值 来 表示 。 将 所 有 点 分 配给 与 其 距离 最 近 的 族 ; 然后 
重新 计算 每 个 徐 的 质心 。 不 断 重复 这 一 过 程 ， 直 到 簇 质 心 不 再 改变 为 止 。 

e PAM( Partitioning Around Medoids, 围绕 中 心 点 划分 ) : EBET 中 心 最 近 的 对 象 
所 代表 。 开 始 ， 算 法 为 所 有 个 簇 分 别 找到 一 个 对 象 作 为 其 中 心 点 ， 随 后 将 剩余 所 有 
对 象 分 配 到 和 它 最 相似 的 中 心 点 所 代表 的 簇 中 。 将 中 心 点 与 未 被 选 作 中 心 点 的 对 象 进 
行 交 换 ， 直 到 没有 未 被 选 到 的 对 象 能 够 担任 中 心 点 为 止 。 

e CLARA( Clustering LARge Application, AAW AIR): 它 是 在 数据 集 的 子 集 上 实施 
PAM 算法 。 它 从 数据 集中 抽取 多 个 样本 子 集 ， 利 用 PAM 算法 对 每 个 样本 子 集 进行 处 
理 ， 然 后 选择 这 些 样本 子 集 的 最 佳 聚 类 结果 。 

e CLARANS( Clustering Large Application based on RANdomised Search ， 基 于 随机 搜索 的 大 
型 应 用 聚 类 ) : 寻找 一 个 图 ， 图 中 的 每 个 节点 是 一 个 潜在 的 解 ， 即 个 中 心 点 的 集合 。 
它 选 择 节 点 ， 并 与 用 户 事先 定义 好 数目 的 近邻 进行 比较 ， 寻 找 局 部 最 小 值 ， 然 后 移动 它 
到 近邻 节点 。 如 果 找 到 局 部 最 优 解 ， 它 开始 重新 随机 选择 节点 并 寻找 新 的 局 部 最 优 解 。 

ek- 众 数 (k-mode) : 基于 k- 均 值 算法 ， 但 是 主要 针对 分 类 数据 聚 类 。 

3. 基于 密度 的 方法 

该 方法 根据 密度 条 件 对 邻近 对 象 分 组 形成 谢 。 簇 的 增长 或 者 根据 邻 域 密度 ， 或 者 根据 特 

定 的 密度 函数 。 

例子 : 

e DENCLUE( DENsity- based CLUstEring, 27 REMER: 将 整个 空间 的 密度 定义 为 
所 有 数据 点 影响 函数 之 和 ， 通 过 确定 密度 吸引 子 (attractor) 来 识别 徐 。 

e DBSCAN( Density- Based Spatial Clustering of Application with Noise， 上 有 具有 噪声 的 基于 密 
度 的 空间 聚 类 ) : 对 于 簇 中 的 每 个 点 ， 其 给 定 半径 内 的 近邻 数 至 少 超过 某 个 给 定 值 。 
该 算法 可 以 处 理 噪声 数据 ， 并 能 发 现任 意 形状 的 禾 。 

e OPTICS( Ordering Points To Identify the Clustering Structure , 点 排序 识别 聚 类 结构 ): 该 
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方法 计算 艇 增长 顺序 ， 以 便 进行 自动 或 交互 式 聚 类 分 析 。 
4. 基于 网 格 的 方法 
该 方法 将 空间 量化 为 数量 有 限 的 单元 以 形成 网 格 结构 ， 然后 在 网 格 结构 上 进行 聚 类 。 
例子 : | 
e STING(STatistical INformation Grid-based method ， 统 计 信 息 基 于 网 格 的 方法 ): 用 层次 
结构 将 空间 区 域 分 割 成 一 些 矩 形 单元 。 遍 历 整个 数据 集 ， 计 算 各 个 单元 内 对 象 的 数值 
特征 的 统计 参数 ， 然 后 创建 一 个 网 格 单元 的 层次 结构 来 表示 不 同 层 次 上 的 聚 类 信息 。 
小 波 聚 类 ( Wave cluster) : 基于 信号 处 理 技术 将 空间 数据 转换 到 频率 域 。 首 先 通过 对 数据 
空间 施加 多 维 网 格 结构 来 概括 数据 ， 每 个 网 格 单元 概括 了 落 大 该 单元 的 数据 点 的 信息 。 之 
后 采用 小 波 变 换 来 转换 原始 特征 空间 。 a R A; 
5. 基于 模型 的 方法 
该 方法 为 每 个 聚 类 假设 一 个 模型 ， 寻 找 数据 与 模型 的 最 佳 拟 合 。 摧 型 的 基于 模型 的 方法 
包括 统计 方法 (COBWEB 、CLASSIT、AutoClass) 和 神经 网 络 方法 (竞争 学 习 和 自 组 织 影射 )。 
在 接 下 来 的 几 节 中 ， 将 讨论 一 些 流行 的 聚 类 算法 。 考 虑 到 处 理 器 所 面临 的 困难 或 者 不 同 
关 型 数据 ， 产 生 了 为 数 众多 的 聚 类 算法 : 


11.5 BIRCH 


Zhang 等 人 [131] 提出 了 Birch( Balanced Iterative Reducing and Clustering ) 算法 来 对 大 规模 
数据 集 进 行 聚 类 。 它 是 一 种 增 量 算法 ， 可 以 根据 可 用 内 存 大 小 调整 内 存 需 求 。 作 者 使 用 了 称 
为 聚 类 特征 和 CF 树 的 概念 

聚 类 特征 ( Clustering Ro CF) —t=704, Pi T Taa, RETR PAS N 
NdR: |X, i =1 2，… Mey .GR 

CF ='CN, LS; SS) 


其 中 N 表示 子 集 内 点 的 数目 ; 区 表示 N 个 点 的 线性 和 区 为 数据 点 的 平方 和 Si 


例如 ， 考 虑 一 个 由 三 维 点 组 成 的 集合 | (3，4) (2, 6), (4,5), (4, 7), (3, 8)}， 
其 形成 的 子 徐 如 图 11-29 所 示 。 


CF = [5, (16, 30), (54, 190)] | 


(3,4) 
(2,6) 
(4,5) 
(4,7) 
(3,8) 





图 11-29 5 个 数据 点 的 聚 类 特征 (CF) 
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这 里 

N=5 

8 =03, “4h (Re 6) 414d SY ECE. 7) 4G. 8) CS OD 

SS = 137, AN+(R Gi vs (42. Wd, PY aR (SR; 19) 

={5, (16, 30}, (94% 39054 

聚 类 特征 足以 用 来 计算 簇 距离 ， 并 且 它 们 创建 了 有 效 的 信息 存储 方法 ， 因 为 它们 概括 了 
子 簇 的 信息 而 不 是 存储 所 有 的 数据 点 。 

CF 树 是 一 棵 具有 两 个 参数 的 平衡 树 : 分 支 因 子 BARAT. TLATH ETTEM 
最 大 数目 。 立 值 参 数 指定 了 存储 在 叶 节 点 的 子 簇 的 最 大 直径 。 改 变 该 阔 值 可 以 改变 树 的 大 
小 。 非 叶 市 点 存储 的 是 它 的 子女 节点 的 'CF 之 和 ， 因 此 ， 它 们 概括 了 它们 的 子女 的 信息 。CF 
树 是 随 着 数据 点 的 插入 而 动态 创建 的 ， 因 此 该 方法 是 增 量 的 。 点 被 插入 到 最 接近 的 叶 节 点 
( 子 簇 ) 中 。 如 果 捅 人 后 存放 在 叶 节 点 的 子 复 的 直径 超过 靖 值 ， 那 么 叶 节 点 和 可 能 的 其 他 节 
点 被 分 裂 。 搬 人 新 点 后 ， 该 点 的 信息 回 树 根 的 方向 传递 。 可 以 通过 改变 冰 值 来 改变 CF 树 的 
大 小 。 如 果 存 储 CF 树 所 需 的 内 存 大 小 超过 主 存储 器 容量 ， 那 么 可 以 指定 一 个 更 大 的 阔 值 并 
重建 CF 树 。 我 们 通过 一 个 例子 来 说 明 这 个 过 程 。 当 添加 一 个 新 的 点 时 ， 所 得 到 的 树 如 图 
11-30 所 示 。 我 们 假设 存储 器 不 足以 存储 整 棵 树 。 如 果 是 这 样 的 话 ， set 
得 到 如 图 11-31 所 示 的 树 。 


[Rio R1 R12 | 
R1 R2 R3 | IR4 R5 R6 | |R7 Be R9_ 
dL laso a hada i 
包含 点 的 数据 节点 
图 11-30 合并 前 的 树 


R10 R11 R12 





包含 点 的 数据 节点 
图 11-31 ;合并 后 的 树 


在 重建 过 程 中 ， 通 过 利用 老 树 的 叶 节 点 来 重新 构建 一 棵 新 树 ， 因 而 树 的 重建 过 程 不 需要 
访问 所 有 点 。 所 以 ， 构 建 CF 树 只 需 访问 数据 一 次 即 可 。 

最 后 ， 如 果 我 们 在 算法 中 指定 所 要 生成 的 簇 的 数目 ， 它 合并 最 近 的 子 树 并 构造 所 需 数目 的 
篮 。 在 图 示 的 例子 中 ， 如 果 我 们 需要 两 个 簇 ， 则 我 们 会 得 到 如 下 的 两 个 簇 ( 如 图 11-32 所 示 )。 
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图 11-32 --#EAF+ 

Birch 算法 
输入 : 

D={X1,X2,...,XN} // FORE 

T // CF BIF BO 

B // 分 支 因 于 
输出 : 

K /7 簇 的 集合 
Birch 聚 类 算法 


For #4 X; © Ddo 
为 Xi 的 搬入 确定 正确 的 叶 节 点 
If Aik RAYE then 
将 x 添加 到 簇 中 , 并且 更 新 cF 三 元 组 ; 
Else 
If 有 插入 x; 的 空间 then 
作为 单个 簇 插 入 ,并 更 新 cF 三 元 组 ; 
| Bise 
分 裂 树叶 节点 ， 并 重新 分 布 CF 特征 ， 
e 与 前 面 的 基于 距离 的 方法 (例如 ,，%- 均 值 和 CLARANS) 相 比 ，BIRCH 更 适合 处 理 超大 
规模 的 数据 集 。 


e BIRCH 可 以 在 任何 给 定 大 小 的 内 存 下 运行 。 
11.6 DBSCAN 


聚 类 算法 DBSCAN[3] 依 赖 于 簇 密度 概念 ， 并 且 用 来 发 现任 意 形状 的 簇 和 识别 噪声 。 根 
据 对 象 的 空间 和 非 空间 的 属性 ，DBSCAN 可 以 聚 类 点 对 象 和 在 空间 上 扩展 对 象 。 基 于 密度 的 
聚 类 基于 能 的 密度 高 于 周边 环境 这 一 事实 。 换 言 之 ， 簇 是 由 对 象 密度 低 的 区 域 所 分 离 的 对 象 
密集 区 域 。 图 11-33 显示 了 一 个 典型 的 具有 变化 的 密度 和 形状 的 二 维 能 。 

传统 的 聚 类 算法 ， 如 -均值 和 k- 中 心 点 ， 假 设 簇 本质 上 是 球形 的 ， 并 且 需 要 给 定 簇 的 
数目 作为 输入 。 因 此 ， 在 很 多 情形 下 ， 它 不 能 发 现 数据 中 的 自然 分 组 。 图 11-34 ERT kp 
心 点 对 人 为 生成 数据 聚 类 的 结果 。 
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图 11-34 kk- 中心 点 对 不 同 数据 集 的 簇 结果 
对 DBSCAN es raja 2 


1) XP ie PAE — A, “Ee FB] a a SE i Eo 
2) 簇 中 的 ee 


任意 点 Pp 的 局 部 点 密度 由 两 个 参数 定义 。 它 们 是 用 户 定义 的 参数 。 参 数 在 聚 类 时 作为 输 
入 和 数据 一 起 提供 。 这 些 参 数 是 : 
1) p 的 邻 域 的 -半径 : 给 定 <， 我 们 可 以 找到 落 在 点 p 半径 e 内 的 近邻 的 数量 。 该 数 
量 依赖 于 半径 =。 我 们 用 N,(p) 表 示 落 在 点 p 的 e- 半 径 内 的 点 的 集合 。 该 集合 可 以 表示 为 : 
N.(p) = |glg 在 数据 集 D 中 ,使 得 distance(p, q) Se! 
2) MinPts; 给 定 邻 域 N,(p) 包 含 的 点 的 最 小 数目 。( 这 个 数 以 某 种 方式 在 算法 中 使 用 ， 
以 决定 点 Pp 是 在 簇 的 核心 部 分 还 是 边界 点 或 噪声 ,) 


11.6.1 DBSCAN 算法 的 概念 


核心 对 象 : 在 其 e 邻 域内 具有 至 少 MinPts 个 点 ( 即 以 给 定 对象 为 中 心 划一 个 半径 为 e 的 
圆 ， 这 个 圆 至 少 包含 MinPts 个 点 ， 这 个 给 定 的 对 象 就 是 核心 对 象 ) 。 例 如 ， 如 果 e 为 2 个 单 
位 并 且 MinPts =5， 为 了 满足 核心 对 象 条 件 ， 一 个 对 象 应 当 在 它 的 以 e 为 半径 的 邻 域 中 至 少 
包含 5 个 点 (对 象 ) 作为 它 的 近邻 (包括 它 自己 ) 。 如 图 11-35 所 示 。 

边界 对 象 : 在 核心 对 象 的 e 邻 域内 ,但 不 满足 核心 对 象 条 件 的 对 象 即 为 边界 对 象 ( bor- 
der object). PM, WR e 为 2 个 单位 而 MinPts =5, 并且 PP 在 某 核心 对 象 的 .se BRA, ME 
它 的 =2 的 邻 域 中 包含 近邻 少 于 5 个 对 象 时 即 为 边界 对 象 。 

直接 密度 可 达到 的 : 点 P 是 由 点 0 关于 两 个 参数 (se，MinPts ) 直接 密度 可 达 的 ， 如 果 
满足 
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Eps MinPts = 4 
me q 
"e @ o Bi no ® @ 
Si ° ; q o r 多 
‘ ae ce) 
a) Eps 一 邻 域 b) 核心 点 c) 密 度 可 达到 的 


图 11-35 “基于 密度 聚 类 的 概念 


1) P RFA Q 的 e 邻 域 。 

2) 在 点 OW s 邻 域 所 包含 的 点 数量 大 于 MinPts, B |N, CO) | 三 MinPis( 核 心 对 象 条 件 ) . 

密度 可 达 的 : 点 尸 是 由 点 0 关于 两 个 参数 (s，MinPis ) 密度 可 达 的 ， 当 上 且 仅 当 存在 由 0 
开始 的 一 连 串 的 点 re PS Ps E A gi =P, 满足 Pi 是 从 f rk 直接 可 达 的 。 开始 点 Q 应 该 
是 一 个 核心 点 。 例 如 ,1 有 两 个 远 距 离 的 点 P，Q 和 一 些 中 间 点 Bl,，P,, Py, e, 已 WE P 
到 P, 是 直接 密度 可 达 的 ，P, 到 P, 是 直接 密度 可 达 的 ……… , HAP, 到 :0 也 是 直接 密度 可 
iM, 那么 点 P，0 是 密度 可 达 的 。 

密度 相连 的 : AP 与 点 @ 是 关于 。，MinPis 密度 连接 的 ， 当 存在 点 0, 使 P、0 都 是 由 
点 0 关于 e，MinPss 密度 可 达 的 。 也 就 是 说 ，P，@ 必须 是 由 任意 核心 点 密度 可 达 的 ， 而 P, 


Q 不 一 定 是 核心 点 。 如 图 11-36 所 示 。 
ara are = 


a) 密度 相连 的 b) 密度 可 达 的 
图 11-36， 密度 相连 和 密度 可 达 的 含义 





噪声 点 : 如 果 说 点 P 既 不 是 核心 对 象 也 不 是 任何 其 他 点 密度 可 达 的 ， 那么 它 就 是 一 个 
We I o a 
11.6.2 DBSCAN 的 基本 概念 和 算法 


1 ) 密度 相连 集中 的 每 个 对 象 都 是 密度 可 达 的 。 

2) 选择 任意 一 点 P. 

3) 如 果 点 已 未 被 分 类 ， 那 么 检查 核心 点 条 件 。 | 

4) 如 果 该 点 为 核心 点 ， 找 到 所 有 由 了 关于 e; MinPts BETES. 

5 ) 用 这 些 点 形成 一 个 新 的 秘 ， 给 每 个 点 分 配 一 个 徐 1D( 同 一 入 中 的 所 有 点 拥有 相同 的 入 
ID) . 

6) 如 果 点 也 为 边界 点 ( 即 没 有 从 密度 可 达 的 点 ) ， 则 继续 访问 数据 中 的 下 一 个 点 。 

7) 继续 这 个 过 程 ， 直 至 处 理 完 所 有 点 为 止 。 

这 个 过 程 用 那些 密度 可 达 的 点 创建 艇 ， 并 隔离 远离 的 噪声 点 。 
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11.6.3 算法 


For 每 个 oeD do 
If o 还 未 被 分 类 then 
If o 是 核心 对 象 then 
寻找 所 有 可 以 由 o 密度 可 达 的 对 象 , 并 指派 为 一 个 新 簇 。 
Else 将 o 划 归 为 噪声 对 象 。 


例子 FE e =3 PLL, MinPts = 4 来 理解 DBScan SETA 数据 如 图 11-37 BRA. 
(3,1) 
(3,4) 
(5,3) 
gso F | 
on 
(10,10) 
(12,8) 
(3,14) 
(10,14) 
(11,13) 
(12,15) 





(14,15) 


图 11-37 关于 数据 点 的 图 


描述 : 

1 ) 随 机 选择 一 个 点 ， 比 如 说 (3, 1)。 设 NP=|(3, 1)}. 

2) 由 那个 点 检查 其 近邻 点 是 否 来 自 它 的 e 邻 域 。 

3 ) 让 我 们 尝试 最 近 的 点 (2，2 ) ， 这 两 个 点 之 间 的 距离 是 2 个 单位 。 因 此 。 它 在 := 邻 
域 之 内 ， 我 们 把 它 加 入 到 一 个 新 秘 ， 并 把 它 加 入 到 NP 集 。 现 在 NP = 1(3,，1)，(2， 
2) 

4) 现在 我 们 再 尝试 下 一 个 最 近 的 点 (3，4) ， 距 离 为 3 个 单位 ， 等 于 es PEMA RE 
市 。 新 的 WE 1G, 1); (2, 29,035 A 

5 ) 接 下 来 尝试 点 (5，3) ， 它 们 的 距离 是 4 个 单位 ， 大 于 ae。 因此 , 它 在 点 (3, 1) 的 。 
邻 域 之 外 ,但 是 它 也 可 以 被 加 入 到 簇 中 ， 只 要 要 它 在 该 纺 的 某 个 点 的 a BRA, 

6) FARA (3, 1) AY e 邻 域 中 的 其 他 点 。 

7) 如 果 找 不 到 新 的 点 ， io 4))， 并 重复 步 又 
1 ~6, | 
8) 聚 类 落 在 NP 中 的 每 个 点 的 e 邻 域内 的 所 有 点 。 

9) 在 图 11-37 中 ,由 点 (3，1) 开始 共有 4 个 点 形成 二 个 和 能 ， BNP ={ (3, 1) (2, 2), 
(BEETS | 

10) 对 于 簇 中 的 每 个 点 ， 如 果 在 其 s 邻 域内 找 不 到 新 的 点 ， 那 么 任意 选择 其 他 点 重复 上 
面 过 程 。 
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11) 如 果 所 选 的 点 不 在 任何 簇 的 © 邻 域内 ， 则 该 点 为 噪声 点 。 
12) 在 图 11-37 中 ， 共 有 三 个 簇 和 一 个 噪声 点 。 图 11-38 显示 了 被 聚 类 的 点 。 








图 11-38 聚 类 后 的 图 


11. 6.4 DBSCAN 算法 的 优点 


1) 形 成 的 艇 可 以 具有 任意 的 形状 和 大 小 。 
2) 可 以 目 动 确定 形成 的 复数 目 。 

3) 可 以 分 离 徐 和 环境 噪声 。 

4) 可 以 被 空间 索引 结构 所 支持 。 

5) 效 率 高 ， 即 使 对 大 数据 集 也 是 如 此 。 
6) 一 次 扫描 数据 即 可 完成 聚 类 。 


bi, ORTCS 


11.7.1 Sle 


Optics 算法 [4] 是 用 于 上 聚 类 分 析 的 新 算法 ， 它 并 不 显 式 地 产生 一 个 数据 集 的 聚 类 ， 取 而 
代 之 的 是 建立 一 个 增 广 的 数据 库 排序 来 表示 它 基 于 密度 的 聚 类 结构 。 这 个 簇 序 ( cluster orde- 
ring) 包 含 的 信息 等 同 于 对 应 一 系列 参数 设置 的 基于 密度 的 聚 类 。 

Optics 的 工作 原理 与 用 无 限 数量 的 距离 参数 e "扩展 的 DBSCAN 算法 类 似 ， 该 参数 =' 小 于 
“生成 距离 =。 唯一 不 同 的 是 ， 我 们 不 指定 得 成 员 关 系 ， 取 而 代 之 的 是 ， 我 们 存储 对 象 被 处 
理 的 顺序 以 及 可 以 被 扩展 的 DBSCAN 算法 用 来 指定 簇 成 员 的 信息 。 该 信息 对 每 个 对 象 来 说 
包含 两 个 值 : 核心 距离 和 可 达 距 离 ( 即 OPTICS 产生 一 个 数据 库 排序 并 存储 每 个 对 象 的 核心 
距离 和 适当 的 可 达 距 离 ) 。 | 
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11.7.2 OPTICS 算法 的 动机 


1) 聚 类 算法 需要 输入 参数 值 。 该 参数 值 很 难 确定 ， 对 于 包含 高 维 值 的 现实 世界 数据 集 
尤其 如 此 。 

2) 算 法 对 于 参数 值 敏感 ， 对 于 同一 数据 集 ， 即 使 参数 设置 稍微 不 同 也 可 能 导致 划分 结 
果 差 异 显著 。 

3) 高 维 真 实数 据 集 通常 具有 倾斜 的 分 布 ， 因 此 不 能 用 一 个 采用 唯一 全 局 参数 设置 的 聚 
11.7.3 OPTICS 采用 的 概念 


核心 距离 . 对 象 P 的 核心 距离 是 P 与 其 邻 域内 使 得 点 已 以 2' 为 邻 域 满足 核心 对 象 条 件 
的 对 象 的 最 小 距离 c'o (WE P 不 是 核心 对 象 ， 则 P 的 核 ， ed — 
Core- distance ( P ) = 使 得 P 是 核心 对 象 的 最 小 距离 eg aa 
TAER: 对 象 P 关 于 男 一 个 对 象 0 的 可 达 距 离 是 P 
和 0 之 间距 离 与 0 的 核心 距离 中 的 最 大 者 。 
Reachability- distance ( PO) 
=max|P 和 0 之 间 的 距离 ，0 的 核心 距离 | 


11.7.4 OPTICS Hz 





// 按 可 达 距 离 排 序 的 Conkrolhist 


(p2 pe 


For $^ Object eD do sated = 
// 开始 , 所 有 对 象 0 的 0 processed = false “i Bp2 E 
If Object. processed = false then ee 
将 (0bject,“ ?2”) 插 入 到 Control Dist: 图 11-39 对 于 MinPts =4, 核心 距离 


While Control List 非 空 do i & 
从 ControlList 中 选择 第 一 个 元 素 (O, r- dist)，; Core- distance (0), FY i4 E 
检索 N, (0) 并 确定 C dist =core-distance (0) ; Bi r(p,, 0), r(p,, 9) 
设置 0. processed = true; 

将 (0,r dist,c dist) 写 人 文件 ; 


If 对 于 某 个 距离 <8,0 是 核心 对 象 then a 
For p( N. (O) and p. Processed = false do GE Qo 
确定 r-distp =reachablility-distance (p,0); © (H) 
If (p, ) e€ControlList then oe” 


将 (p,r distp) 插 入 ControlList; 
Else if (p,old _r dist) eControlList and r_dist- 
pold r dist then 


用 (p,r distp) 更 新 ControlList PHY (p, old r o (MIN) 
dist) A) One® 


让 我 们 考虑 一 个 例子 。 如 图 11-40 所 示 ， 现 有 用 4 ~ / 
了 标记 的 20 ARo RE c =44, MinPts =3。 
我 们 随机 选择 一 个 点 并 插入 到 控制 列表 Control list, 图 11-40 OPTICS 算法 所 用 的 数据 点 
处 理 第 一 个 点 : 由 点 4 开始 ， 从 数据 库 九 中 寻找 4 的 se 邻 域 点 ， 结 果 为 B 和 1。 因 此 ， 
连同 4 点 有 3 个 点 在 它 的 s 邻 域 中 。 
4 是 核心 点 。 设 <41> =38, <AB> =40。4 的 最 少 点 近邻 ? (第 3 个 近邻 ) ER BL A 


controlList: (A, ) 


O ”点 P 的 最 少 点 近邻 是 使 得 P 成 为 核心 对 象 的 最 近 的 近邻 。 一 一 译 者 注 
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此 , A 的 核心 距离 是 40。 指 定点 4 的 核心 距离 属性 值 为 40， 是否 处 理 过 的 属性 processed = 
true。 将 4 写 人 文件 ， 将 它 从 控制 列表 中 删除 。 将 40 指定 为 点 B8 和 7 的 可 达 距 离 ， 并 将 它们 
放 进 控制 列表 。 对 于 在 点 4 的 核心 距离 内 的 所 有 点 ， 它 的 可 达 距 离 就 是 核心 距离 本 身 。 因 
此 ,7 的 可 达 距 离 是 40 而 不 是 38。 根 据 对 象 的 可 达 距 离 属 性 值 对 控制 列表 排序 。 令 当前 顺 
序 为 8(40) ,1(40)。 对 于 第 一 个 点 ， 可 达 距 离 未 定义 。 因 此 ， 在 图 11 EER, CRATE T” 
不 反 A 的 可 达 距 离 未 定义 。 


QE 0% 








© controlList: (B,40)(1,40) 


图 11-41 .处理 第 sr 个 点 


处 理 控制 列表 中 的 第 二 个 点 : 从 控制 列表 中 取出 第 一 个 点 B， 它 就 是 当前 要 处 理 的 点 。 
寻找 它 的 8 近邻 , \ 得 到 点 C 和 4。 设 <BC > =38，<BA > =40。B 是 一 个 核心 点 ( 即 以 B 为 
中 心 在 = 邻 域内 包含 3 个 点 ) ， 它 的 核心 距离 是 40( 因 为 从 B A e 邻 域内 的 这 些 点 的 距离 为 
0，38，40)。 把 该 值 作为 B 的 核心 距离 属性 ， 将 它 的 是 否 处 理 过 属性 设 为 tue， 并 添加 到 文 
件 中 。 从 控制 列表 中 将 其 删除 。 在 B 的 两 个 近邻 中 ， 点 4 已 经 被 处 理 过 ， 由 点 B AIC 的 新 
的 可 达 距 离 是 40。 由 于 没有 可 达 距 离 被 赋予 点 C， 值 40 被 分 配给 点 C， 并 加 入 到 控制 列表 。 
”对 控制 列表 排序 ， 并 得 到 当前 顺序 (7，40) ，(C，40) 。 如 图 11-42 所 示 。 


@ 
© reach - dist 





controlList:(1,40)(C,40) 


图 11-42 处 理 第 2 个 点 B 


处 理 控制 列表 中 的 第 三 个 点 : 从 控制 列表 中 取出 点 71s BREA eR A, K, J, 
L，M 和 RR 为 它 的 近邻 。 其 中 4 已 经 处 理 过 。 设 距 点 7 的 真实 距离 分 别 为 : <I> =19, 
<IK> 220, "<1L> =3, SMS RS 243," TN 5 =38- 最 少 点 近邻 是 K。 因 此 ， 
I 的 核心 距离 为 20。 把 了 输出 到 文件 。 由 于 点 J，K, L，M 和 RR 并 未 被 处 理 ， 也 未 出 现在 控 
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制 列 表 中 , ECT, 20), (K, 20), (L, 3) (M, 40) 和 (及 ，43 ) 加 入 到 控制 列表 。 对 列表 
进行 排序 ， 得 到 (J，20)，(K, 20), (£,°31), (Mopo), GR, 43), mE 11-43 所 示 。 


reach - dist 





A 
_ controlList:(J,20)(K,20)(L,31)(C,40)(M,40)(R,43) 
图 11-43 处理 第 3 个 点 7 


处 理 第 四 个 点 : 从 控制 列表 中 取出 (J，20) 。 找 到 它 的 近邻 点 K, L, R, M, PAT. 
设 点 J 到 这 些 点 的 实际 距离 分 别 为 : 由 =18，J =19; JK=25,.JR=21, JM =30, JP =31。 
这 里 第 三 个 最 近邻 是 1。 由 于 JIT=19， J 的 核心 距离 为 19，J 是 核心 点 。 将 19 作为 /的 核心 
距离 ， 并 写 入 文件 。 现 在 更 新 = 近邻 的 可 达 距 离 属性 。 点 玉 , 上，M 和 RR 已 经 在 控制 列表 中 。 
更 新 它们 的 可 达 距 离 为 (K，20)，(L, 18), (M, 30), (R, 21). WE 11-44 所 示 。 

需要 注意 的 是 ， 由 于 距 /的 新 的 可 达 距 离 小 于 之 前 的 可 达 距 离 ， 因 此 L 和 MM 的 可 达 距 
离 发 生 了 变化 。 点 1 已 经 被 处 理 过 ， 所 以 被 丢弃 。 点 了 没有 出 现在 控制 列表 中 ,把 (P，31) 


加 入 到 控制 列表 。 对 控制 列表 排序 。 排 序 后 的 控制 列表 为 : 
(L, 10) (K, 207 0 CR. 21), (M, 30). CP, Stee C. 40) 





controlList:(L,19)(K,20)(R,21)(M,30)(P,31)(C,40) 
图 11-44 处理 第 4 个 点 7 
继续 处 理 过程 : 图 11-45 ~ 图 11-61 表示 了 算法 如 何 继续 为 每 个 点 计算 可 达 距 离 。 图 中 
的 每 个 低谷 对 应 于 一 个 簇 。 
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ee 
controlList: (M, 18)(K, 18)(R, 20)(P, 21)(N, 35)(C, 40) 


图 11-45 处 理 第 5 个 点 工 


Qo reach - dist 
© i 












controlList: (K, 18)(N, 19)(R, 20)(P, 21)(C, 40) 
图 11-46 “处理 第 6 个 点 M 


controlList: (N, 19(R, 20)(P, 2D(C, 40) 
图 11-47 处 理 第 7 个 点 


i S 
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controlList: (R, 20)(P, 21)(C, 40) 
图 11-48 处理 第 8 个 点 
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controlList: (P, 21)(C, 40) 
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图 11-49 处 理 第 9 个 点 R 
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controiList: (C, 40) 


reach - dist « 
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图 日-50， 处 理 第 10 个 点 PS 
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controlList: (D, 22)(F, 22)(E, 30)(G, 35) 


So 


reach - dist 
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图 11-51 处 理 第 11 个 点 C 





controlList: (F, 22)(E, 22)(G, 32) 


Bo 


reach - dist 


图 11-52 处理 第 12 个 点 也 


从、 地 1 于 了 证 















on H 





247 


248 lle 





So 


reach - dist 








E a > > : 
JR 


; ge 


3 


A B I 





controlList: (G, 17)(E, 22) 


图 11-53 ”处理 第 13 个 点 下 
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controlList: (E, 15)(H, 43) 


K| 11-54 处 理 第 14 个 点 6 


Vo 


reach - dist 








A BL J MK N RP CH FOE 
controlList: (H, 43) 


图 11-55 处 理 第 15 HAE 


在 这 一 点 ， 控 制 列表 变 为 空 。 因 此 ， 算 法 进入 主 循 环 取 点 ， 并 检验 这 些 点 的 已 被 处 理 的 
属性 。 这 一 过 程 持续 到 找到 一 个 未 被 处 理 的 点 为 止 。 
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H.core—dist=? 
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controlList: (H, 43) 
图 11-56 处 理 第 16 4 H 





controlList: (S, 18)(V, 18) (U, 25) 


Fl 11-57 ”处理 第 17 个 点 了 


- 





controlList: (V, 18)(U, 20) 
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图 11-58 ”处 理 第 18 个 点 S 








reach - dist 


A 
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controlList:(U, 19) 
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图 11-59 处 理 第 19 个 点 V 
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controll ist: 








图 11-61 最 终 的 数据 簇 


RARER: 在 最 后 的 聚 类 数据 中 ， 算 法 得 到 三 个 聚 类 。 在 可 达 距 离 图 中 存在 三 个 谷 ， 
因此 就 有 三 个 类 。 


11.7.5 可 达 图 


数据 集 的 簇 序 可 以 用 图 的 形式 来 表示 和 帮助 理解 。 大 体 上 ， 如 果 簇 序 中 的 每 个 对 象 0 
的 可 达 距 离 > 都 绘制 在 图 中 ， 则 我 们 可 以 看 到 数据 集 的 聚 类 结构 。 可 达 图 是 用 来 清晰 理解 数 
据 结构 的 非常 直观 的 方法 。 可 达 图 对 于 算法 的 输入 参数 相当 敏感 。 
图 11-62 描绘 了 一 个 非常 简单 的 二 维 数据 集 的 可 达 图 。 注 意 ， 簇 序 的 显示 是 独立 于 数据 
集 的 。 
2 的 最 优 值 是 满足 以 下 条 件 的 最 小 的 值 : 使 得 数据 库 关 于 参数 © 和 MinPts 的 基于 密度 的 
聚 类 ， 将 仅 由 一 个 几乎 包含 数据 库 所 有 点 的 篮 组 成 。 于 是 ， 所 有 聚 类 级 的 信息 将 包含 在 可 达 
图 中 。 在 该 最 优 值 的 周围 存在 一 系列 的 值 ， 这 些 值 对 可 达 图 外 观 的 改变 并 不 明显 。 对 于 不 同 
的 MinPts 值 ， 可 达 图 的 总 体形 状 基 本 相似 。 

图 11-63 显示 了 数据 集 具 有 变化 的 簇 密度 和 形状 的 数据 集 的 可 达 图 。 
图 11-64 显示 了 参数 (sg，MinPts) 设 置 对 簇 序 的 影响 。 
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未 定义 





对 和 象 的 簇 序 
图 11-62 可 达 图 








e =5, MinPis=10 
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11.7.6 .优点 


1 ) 无 须 事先 知道 复数 。 

2) 不 需要 标准 的 方法 或 非常 鲁 棒 的 参数 (OPTICS ) 。 

3) 计算 复 的 完整 的 层次 结构 。 

4) 方 法 包含 很 好 的 结果 可 视 化 。 

5 ) 随 后 可 以 得 到 “平坦 的 ”划分 (例如 ， 通 过 截断 树 状 图 或 可 达 图 ) 。 


11.7.7 缺点 


可 能 不 具 良 好 的 可 伸缩 性 。 
© 标准 方法 的 运行 时 间 : O(n log n), 
© OPTICS 的 运行 时 间 : 无 索引 支持 情况 下 Oln), 


11.8 基于 图 划分 的 聚 类 


11.8.1 加 权 图 划分 


聚 类 可 以 被 看 作 图 划分 问题 。 RRA WAT WRAP EATS V 两 个 对 象 Xa 
和 x, ( UE V, 和 WV) 通过 一 条 权重 系数 W a, x,) W, ,为 正 的 无 向 边 连 接 起 来 。(x,， 
%i) 代 表 一 条 从 x, 到 x, 的 边 ， 而 所 有 的 边 形成 边 集合 。 边 集 的 基数 | 五 | 等 于 所 有 具有 非 零 
相似 性 的 样本 对 的 数目 。 如 果 去 掉 一 组 边 , 图 G = (V, 五 ) 将 被 划分 成 k 对 互 不 相连 的 子 图 
G= (VWV,，E,)， 那 么 这 组 边 称 为 边 分 离 器 (edge separator) 。 我 们 的 目 的 是 寻找 其 边 权 重 之 和 
最 小 的 分 离 器 。 然 而 ， 为 了 得 到 最 小 切割 ， 每 个 簇 中 的 对 象 数 必须 保持 大 臻 相等。 在 这 种 保 
持平 衡 的 特殊 情况 下 ， 该 问题 是 NP- 困难 问题 ， 称 为 图 划分 问题 ( graph partitioning problem) 。 

Si TES ARRAY, CE Fae Eh I BB HR BB, 然而 ， 一 些 自 然 
族 可 能 在 大 小 上 并 不 相等 。 通过 采用 更 多 的 聚 类 我 们 可 以 解决 多 模 类 (例如 XOR- 问 题 ) 并 且 
可 以 在 随后 的 阶段 进行 徐 合 并 。 这 就 是 Chameleon 聚 类 算法 [5] 所 采取 的 策略 。 

大 多 数 已 有 的 算法 在 一 些 静 态 案例 中 效果 很 好 ,但 是 当 数 据 包 含 不 同形 状 、 密度 和 大 小 
的 簇 时 ， 这 些 方 法 便 无 能 为 力 了 。 图 11-65 给 出 了 两 个 这 样 的 簇 。 


EE fas 


a) KARIE b) 非 凸 形 的 入 
图 11-65 簇 的 类 型 


传统 k- 均 值 和 -中心 点 算法 局 限 性 
根据 图 论 的 理论 ， 存 在 两 套 聚 类 方案 。 一 种 基于 互 连 性 (interconnectivity) 概念 一 一 跨越 
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PAT RAIA ZA, 53 — PPE F 4% HE (closeness) 概念 一 一 连接 复 C ~ Ci 的 顶点 的 边 
的 平均 权重 。 如 图 11-66 和 图 11-67 中 的 例子 所 示 ， 单纯 采用 一 个 度量 准则 有 时 会 导致 错误 
的 聚 类 结果 。 


È- T m m mmm b b b b 
aa f 
a c È c a mmm m b b b 
a c 
a a 2 c C mmm m bb 45 
ee c os en. b b 
c PR b 
a) b) 
图 11-66 具有 不 同 接 近 度 和 互 连 性 度量 的 两 个 簇 对 
a aa a 4 a 
a a a a ce c cC c : Ce ai c 
a: a anaa 起 Ci. ie EÇ g 
a Gh Aaah Wena mo Eoc 
aa a a a p eS 
ja a a Cigeoce © 
,0 7 
SERAL Se I ke shih ee 
em t ake. pe 
Coit fs 和 
DONI PEPEE y PP P 
图 11-67 用 于 解释 仅 使 用 互 连 性 度量 聚 类 对 象 时 出 现 问题 的 3: 个 簇 
基于 接近 度 的 算法 会 错误 地 合并 “a” 和 “c” 簇 ， 因 为 这 两 个 徐 比 “m” 和 “b” 簇 更 接近 。 
基于 互 连 性 的 算法 会 错误 合并 “a” 和” ieee. "A “c” fe. PATER MEF Bie 
的 图 划分 方法 。 


11.8.2 平衡 图 划分 一 一 基本 原则 


给 定 加 权 图 G = (V,，E),V 表示 点 集 , 五 代表 边 的 集合 ， 加 权 和 矩阵 为 砍 。 我 们 希望 利用 最 
小 化 最 大 化 原则 一 一 簇 间 相 似 性 最 小 和 簇 内 相似 性 最 大 一 一 把 数据 划分 到 两 个 子 图 4 和 B。 这 
是 一 个 可 靠 的 原则 ， 在 统计 学 、 数 据 挖 气 和 机 器 学 习 领 域 得 到 很 好 证 实 。 节 点 ww 和 w 之 间 的 相 
似 性 度量 用 边 的 权重 到, ,表示 > 因此 , 子 图 4 和 B 间 的 相似 性 度量 是 分 割 粒度 (cutsize)- 

Cats, B) =a, B) = Ja eD 
A eA,veB 
W(A) =W(A, A), WCB) =W(B, B) 

现在 我 们 用 一 个 二 维 数据 集 来 作为 例子 。 如 表 11-15 所 示 ， 数据 点 > +, 9, 10, 

11 和 13 FRA, HRARTR B, , 


3211-15 数据 集 
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数据 点 图 如 图 1 68 所 示 。 表 11-16 给 出 了 相应 应 的 相似 性 度量 。 





图 11-68” 数 据点 图 


表 11-16 14 个 数据 点 的 相似 性 度量 
0 7 8 P 9 10 11 12 13 14 


0,70 0.08. 0.08: 0.20 0:17 0:10. 0.09. 0.16 0.08 
10° 0/11. 0.08 0.09 0.16 0.14 0.10. 0.09 0.14 0.09 
$2: 0443.2 0.1 G10" 0.26 624° 0:11 0:10 0.22 0.09 
ED 
0 0 3 Ta 0n O0 a 0T O O 
LOF OR es es WD Eh oe ba on ai 
G24 1.00 0.3F 10.09 0110 10.14 0.16 010 0.13 
O31 O31 $00" 800° COIS O20 10.84 “0.09 -0.18 
11 O11 0.09 0.09 1.00: 0.41 0.09 0.08 0.50 0.08 
2s) O98 5 IO OO CE LO T oO OSD 0: 08 
18 i 0622 20714 17082 210094: 90. 10 > 1008 084053: 20.09 +20. 33 
iR 10.28 che Oe O08. O08 0 ae 1.00 0.08 0.41 
e Oo OO" 0,08" OO Ou" Oe”. OM La 0,07 
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wa ail b ie 司 的 相似 aran Sok: 


s 1 
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式 中 Dist(a, b) RRA a 和 4 间 的 欧 氏 距离 。 

这 些 相似 人 中 节点 的 权重 。 例 如 ， A 5 =0. 12 是 连接 节点 3 和 5 的 边 
的 权重 。 

fik A( 子 图 4) 内 的 相似 性 或 关联 是 4 中 所 有 边 的 权重 之 和 ， 等 于 WA), WTA u ERI 
E W, ,包括 在 W(4) 中 ， 这 对 某 些 应 用 来 讲 非 常 重要 。 最 小 化 -最 大 化 聚 类 原则 要 求 我 们 使 
Cut(A,B) 最 小 化 ， 同时 使 亚 \4) 和 亚 (83) 最 大 化 。 所 有 这 些 要 求 通过 以 下 目标 函数 可 以 同 
时 满足 (也 就 是 我 们 应 该 把 点 分 配 到 复 4 和 B, {849 Mcut 最 小 化 ) 。 
Cul A., B) „Cu(A, B) 

W(A) WB). 

表 11-15 中 带 有 阴影 的 点 对 应 应 于 分 组 4， 其 余 的 点 在 分 组 B。 我 们 的 问题 简化 为 把 元 素 
分 为 两 组 ， 使 得 Meut 最 小 。 

为 了 说 明 该 公式 的 原理 ， 我 们 对 这 些 点 进行 分 组 并 重新 安排 数据 顺序 ， 如 表 11-17 所 


Mcut = (EL 12) 
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示 。 我 们 把 阴影 点 (分 组 4 中 的 点 ) 排 列 在 一 起 。 
表 11-17 重新 安排 的 数据 点 





点 l 2 3 4 5 6 7 8 9 
X 2 3 3 5 l 2 l 9 9 
Y s l +4 3 6 Pi 7 8 7 


对 应 的 相似 性 矩阵 如 表 11-18 所 示 。 


表 11-18 表 11-17 中 数据 的 相似 性 矩阵 


1 2 3 4 EOS g 7 8 9 
1 POD Beals. OS" ued Ne ree ee Oe l 
2 O4: 1-00-0853» 03). eg ae gee Ag eH 
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4 C2 OCS Re ee Se OD ee 
5 上 了 
6 O02 OO 
7 OF Ol A tee a a ee 
8 wi O64 Or OO) Os. Gare L oes 
9 Ve aa Oy ae 于 
10 了 
11 win Dt SORE i hk (eRe Bee 
12 pan (eT A or xe eal oat o th Miia: a 
13 al OL Or Or -01 OS CT ee 
14 ar oir a DAG, e a aa veges 
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现在 ， 左 上 阴影 矩阵 元 素 的 和 就 是 WA). WB) SERA A OP CRY A, EEE 
PREM, WA, B) 右上 无 阴影 矩阵 或 者 左下 矩阵 元 素 之 和 。 WEW 可 表示 为 : 


w=| W, f 


Win We 


GER 13) 


令 万 为 一 个 对 角 矩 阵 ， 其 对 角 元 素 为 WW 矩阵 中 相应 行 或 列 的 元 素 之 和 ; x 和 y 是 被 A， 


B 共 形 划分 的 向 量 ， 即 对 于 表 11-17 中 的 数据 点 ， 


wa OL og WA TG Wael AONT REC ie PE A es Dia 


而 


n 


(0, 0, 0, 0, 0, Q., 0, l; L; i: bs ly l, Ey 
向 量 x 中 的 前 7 个 元 素 为 1,， 表示 前 7 个 数据 点 (或 顶点 ) JR TFI 4。 


y， 它 的 元 素 值 指明 属于 簇 B 数据 点 。 注 意 ,x My 是 互补 的 。 


对 于 表 11-15 中 的 数据 点 ， 向 量 x Aly 分 别 为 : 
e=ti;- 1, 1,4F, 020, 00; 


? 


,GT 0)” 


3 
y =(0, 0, 0, 0, E, l; Ls Fg 0, i; 1,70, D): 


由 式 (11. 12) 和 式 (11. 13) 推导 得 到 : 


Cut(A, B) =x'(D-W)x=y'(D-W)y 


W(A) =x'Wx, W(B) =y'Wy 


同样 地 ， 对 于 回 量 


公式 Cut(A，B) 的 解释 在 本 书 最 后 附录 B 中 给 出 。 对 于 基于 图 论 的 聚 类 ,目标 函数 可 


以 被 写 为 (在 我 们 并 不 知道 分 组 的 情况 下 ) : 


256 #1lF 
Meut =~ 1B- W)x i (De W)y - 
x Wx y Wy 
我 们 来 计算 例子 的 Mcut。 我 们 的 目标 变 为 寻找 使 Meut 最 小 的 x。 
W(A) =x Wx =17.72, W(B) =y"Wy =17. 68 
令 W(7T) 等 于 表 11-18 中 所 有 元 素 之 和 ,，W(7T) =45. 26。 
W(A,，B) 可 以 通过 不 同方 法 得 到 . 


CTL Pah 








WA, B) = UD) = WCA) - WCE) 4, 93 
4.93 4.93 
Mcut = 17. 99 t I7. 68 =0. 358 


对 于 这 个 聚 类 已 知 的 问题 ， 这 是 Mout 的 最 小 的 可 能 值 。 
如 果 给 定 的 数据 点 没有 被 聚 类 成 两 组 ， 我 们 可 以 把 这 个 问题 转化 为 一 个 最 优 问题 ， 我 们 
改变 癌 量 x( 或 y) 使 得 
Mout =* P -W)x , y"(D-W)y 
x' Wx y Wy 
最 小 。 


11.8.3 kk 路 划分 


到 目前 为 止 ， 我 们 一 直 关 注 把 图 分 成 两 个 子 图 。 最 小 -最 大 切 分 方法 可 以 扩展 到 图 的 平 
衡 开 路 划分 。 对 于 上 路 划分 ， 目 标 函 数 为 : 
Eut G1; -CT 一 Got( 人 的 ;人 Ent (-G;, -6€.) 
ie te, 4 


11.9 CHAMELEON: 两 阶段 聚 类 算法 


CHAMELEONL5j 是 一 种 基于 图 划分 的 算法 。 该 算法 对 稀疏 图 进行 操作 ， 图 中 节点 代表 
数据 项 ， 加 权 边 表示 数据 项 之 间 的 相似 性 。 数 据 集 的 稀 朴 图 表示 可 以 使 CHAMELEON 能 够 
处 理 大 数据 集 ， 并 能 成 功 地 运用 于 相似 性 空间 而 非 度量 空间 上 的 数据 集 。CHAMELEON 采用 
两 阶段 算法 在 数据 集中 寻找 复 。 在 第 一 阶段 ，CHAMELEON 用 图 划分 算法 将 数据 项 分 成 大 量 
的 相对 较 小 的 子 徐 。 在 第 二 阶段 ， 它 使 用 凝聚 层次 聚 类 算法 通过 反复 结合 这 些 子 能 ， 最 后 得 


到 真正 的 聚 类 。 如 图 11-69 所 示 。 
数据 集 k -最 近邻 图 最 终 的 簇 


Mcut, 





图 11-69 CHAMELEON 的 聚 类 步骤 
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CHAMELEON 的 凝聚 层次 聚 类 算法 的 关键 特征 是 ， 它 同时 考虑 互 连 性 性 和 紧密 性 特征 来 
确定 最 相似 的 子 秘 对 。CHAMELEON 采用 新 颖 的 方法 ， 对 簇 对 的 互 连 性 和 紧密 性 度量 进行 建 
该 方法 考虑 了 艇 本身 的 内 部 特性 。 因 此 ， A ree en eens 可 以 自动 

应 被 合并 簇 的 内 部 特性 。 


11.9.1 数据 建 模 


给 定 一 个 相似 性 和 矩阵， en 一 种 图 表示 法 。 事 实 上 ， 用 图 对 数据 项 
建 模 在 很 多 层次 聚 类 算法 中 是 非常 常见 的 。 例 如 ， 凝 聚 层 次 聚 类 算法 基于 单 连 接 、 完 全 连接 
或 者 组 平均 方法 对 完全 图 进行 操作 。 

数据 项 的 CHAMELEON 的 稀 玖 图 表示 法 基于 常用 的 -最 近邻 图 方法 。% 最 近邻 图 的 每 个 
顶点 代表 一 个 数据 项 ， 如 果 对 应 于 任 一 节点 的 数据 项 是 对 应 于 另 一 节点 数据 项 的 上 个 最 相似 
的 数据 点 之 一 ， 则 两 个 顶点 之 间 存 在 一 条 边 。 图 11-70 说 明了 一 个 简单 数据 集 的 1- 最 近邻 、 
2- 最 近邻 和 3- 最 近邻 图 。 注 意 ， 由 于 CHAMELEON 在 稀 朴 图 上 进行 操作 ， 因 此 ， 每 个 簇 只 
不 过 是 表示 数据 集 的 原始 稀 玖 图 的 一 个 子 图 。 


Po os So ds A ps 
T bo A 


a) 原始 二 维 数据 b) 二 最 近邻 图 c) 2- 最 近邻 图 d) 3- 最 近邻 图 
图 11-70 简单 数据 集 的 图 


采用 大 最 近邻 图 G4 表示 数据 具有 一 些 优点 。 首 先 ， 离 得 很 远 的 数据 点 在 C, 中 是 完全 不 
连通 的 。 其 次 ，Cx 动态 地 捕捉 邻 域 概念 。 一 个 数据 点 所 在 区 域 的 密度 决定 了 该 点 的 邻 域 半 
径 。 在 稠密 区 域 ， 邻 域 被 定义 得 比较 罕 ; 而 在 稀 朴 区 域 ， 邻 域 被 定义 得 比较 宽 。 在 DBSCAN 
定义 的 模型 中 指定 了 一 个 全 局 邻 域 密度 ， 与 之 相 比 ，G; 捕获 更 自然 的 邻 域 。 第 三 ， 区 域 密 
度 作 为 边 的 权重 。 笛 密 区 域 C, 的 边 权 重 ( 边 权 重 表示 相似 性 ) 会 较 大 ， 而 稀 朴 区 域 的 边 权 重 
较 小 。 因 此 ， 一 个 图 的 最 小 二 分 割 集 表 示 稀 玖 区 域 分 界 层 。 最 后 ， 与 其 他 一 些 在 完整 图 上 进 
行 操作 的 算法 (包括 图 划分 和 划分 精炼 算法 ) 相 比 ，G 具有 计算 上 的 优势 。 


11.9.2 BUS 


11.3 节 讨 论 了 凝聚 方案 的 局 限 性 ; CHAMELEON 通过 同时 考虑 每 对 簇 C; 和 C, 的 相对 互 
连 度 RI(C;，C;) 和 相对 紧密 度 RC( GC;，C,) 来 确定 它们 的 相似 性 。 CHAMELEON 的 层次 聚 类 
算法 选择 合并 相对 互 连 度 RI(C;, CD) 和 相对 紧密 度 RC(C,, C MANN, het, E 
选择 合并 这 样 的 簇 ， 对 于 簇 的 内 部 互 连 度 和 紧密 度 而 言 ， 它 们 是 高 度 互 连 和 紧密 的 。 通 过 基 
TAPAEA, CHAMELEON 克服 了 那些 仅 考虑 绝对 互 连 度 或 绝对 紧密 度 算 法 的 局 限 
性 。 例 如 ， 图 11-66 和 图 11-67 所 示 的 例子 和 在 11. 9. 1 节 所 讨论 的 例子 中 ，CHAMELEON 会 
选择 合并 正确 的 簇 对 。 在 本 节 的 剩余 部 分 ， 我 们 将 讲述 如 何 计算 一 一 对 艇 之 间 的 相对 互 连 度 和 
相对 紧密 度 。 

”相对 互 连 度 : 一 对 簇 C; 和 C; 之 间 的 相对 互 连 度 被 定义 为 ,用 簇 C, AC, 的 内 部 互 连 
EBL AT CASI C; AC; 之 间 的 绝对 互 连 度 。 簇 C, 和 OC, 之 间 的 绝对 互 连 度 是 连接 簇 C, A C, 





258 21 


的 顶点 的 所 有 边 的 权重 之 和 ， 其 本 质 是 同时 包含 C, 和 C ABEND (edge-cut), WEH 
这 个 簇 分 为 C 和 Ci。 我们 用 ECCC,, CRR HE C 的 内 部 互 连 度 可 以 通过 它 的 最 小 二 
分 割 ECC Ci) 的 大 小 (即将 图 划分 成 两 个 大 致 相等 的 部 分 的 边 的 加 权 和 ) 表 示 。 近来 在 图 划 
分 技术 上 的 进步 ， 使 得 寻找 图 的 最 小 二 分 割 变 得 非常 高 效 。 秘 C, 和 C 间 的 相对 互 连 度 由 
下 式 给 出 : 

JEC(C,, GD) 
|EC(C;) | + |EC(C,) | 
2 
ERARA PRE EERE EEE, GL, (ECC, C) | 表示 绝对 互 连 

度 ， 可 以 表示 为 : 


RI(C;, C,) = (11. 15) 


\EC(C,, C) | = BERIANI KA A A 
EC( C;) 表 示 内 部 互 连 度 ， 可 以 写 为 : 
EC(C;) =C; 内 所 有 边 的 权重 和 

相对 紧 客 度 : We C, 和 Ci 之 间 的 相对 紧密 度 (如 图 11-71 所 示 ) 被 定义 为 用 簇 Ci AIC, 的 
内 部 紧密 度 规格 化 的 簇 C; 和 C, 之 间 的 绝对 紧密 度 。 一 对 簇 之 间 的 绝对 紧密 度 可 以 通过 多 种 
不 同方 法 获得 。 许 多 已 有 的 方案 从 簇 CG; 和 C; 中 的 所 有 点 (或 代表 点 ) 中 寻找 最 近 的 点 对 。 由 
于 仅 依靠 一 对 点 ， 这 种 方案 的 一 个 重大 缺陷 是 对 离 群 点 和 噪声 的 容忍 程度 不 够 。 由 于 这 个 原 
Al, CHAMELEON 度量 两 个 禾 的 紧密 度 的 方法 是 取 复 C 和 C 间 连 接点 的 平均 相似 性 。 由 于 
这 些 连接 是 通过 有 -最 近 近 邻 图 确定 的 ， 它们 的 平均 强度 提供 了 反映 簇 分 界 层 中 数据 项 间 亲 
和 力 的 良好 度量 。 同 时 ， 可 以 容忍 离 群 数据 和 噪声 。 注 意 ， 这 个 来 自 于 两 个 簇 中 的 点 间 的 平 
均 相 似 性 等 于 连接 C, AC, 之 间 的 边 的 平均 权重 。 在 CHAMELEON 算法 中 ， 相 对 紧密 度 由 如 
下 公式 获得 : 


SBOC CFC 
REIC CI a T a e ea (11. 16) 


C 
一 一 一 一 一 一 和 PC C; +- SEC C. 
Eel E ETa helg EINN 


式 中 ,绝对 紧密 度 SEC(C,, C) = 类 C, AC, 的 连接 边 的 平均 权重 ,SEC(C;) 是 内 部 紧密 度 。 


ZINAA A N 
TT 





图 11-71 第 一 对 能 更 “紧密 。 


11.9.3 CHAMELEON 的 两 个 阶段 


CHAMELEON 算法 包含 两 个 不 同 的 阶段 。 第 一 个 阶段 的 目的 是 将 所 有 数据 项 聚集 成 大 量 
的 子 徐 ， 这 些 子 复 包含 足够 数量 的 数据 项 ， 以 便 进 行动 态 建 模 。 第 二 个 阶段 的 目的 是 通过 采 


用 动态 建 模 框架 以 层次 方式 来 合并 子 簇 ， 最 终 得 到 真正 的 聚 类 。 下 面 我 们 将 介绍 CHAME- 
LEON 的 两 个 阶段 所 采用 的 算法 。 
阶段 [ : 发 现 初始 子 猴 。CHAMELEON 采用 图 划分 算法 将 数据 集 六 最 近邻 图 划分 为 大 
量 的 子 徐 ,使 得 切 边 最 小 化 ， 也 就 是 跨越 两 个 子 簇 的 边 的 权重 和 最 小 。 既 然 六 最 近邻 图 中 
的 每 条 边 表 示 点 间 的 相似 性 ， 最 小 化 割 边 的 划分 就 相当 于 最 小 化 了 跨越 结果 划分 的 点 之 间 的 
关系 (亲和力 )。 一 个 潜在 的 假设 是 簇 内 的 连接 比 簇 间 的 连接 强度 更 高 、 更 丰富 。 因 此 ,在 
每 个 划分 内 的 数据 项 间 的 联系 更 紧密 。 
MA: 采用 动态 框架 合并 子 猴 。 一 旦 在 第 一 阶段 采用 基于 划分 的 算法 得 到 细 粒 度 的 聚 
类 结果 ，CHAMELEON 就 采用 凝聚 层 次 限 类 来 合并 这 些小 的 子 簇 。 正 如 在 11.2 节 所 讨论 的 ， 
凝聚 层次 聚 类 算法 的 关键 步骤 是 寻找 最 相似 的 子 复 对 。CHAMELEON 的 凝聚 层次 聚 类 算法 采 
用 前 面 所 述 的 动态 建 模 框架 ， 同 时 考虑 簇 之 间 的 相对 互 连 度 和 相对 紧密 度 来 选择 最 相似 的 簇 
对 。 同 时 考虑 以 上 两 种 度量 ， 可 以 提出 很 多 凝聚 层次 聚 类 算法 。CHAMELEON 算法 实现 了 两 
种 不 同 的 方案 。 第 一 种 方案 是 仅 合并 那些 相对 互 连 性 和 相对 紧密 度 都 高 于 用 户 指定 的 阔 值 
Ty All Tic 的 簇 对 。 在 这 种 方法 中 ，CHAMELEON 访问 每 个 簇 C;,， 并 核查 其 邻接 簇 C, 是 否 满 
足下 面 两 个 条 件 : 
RI(C;, C;) > Tr HRC ECs C;) > Tre (1). 17) 
如 果 不 止 一 个 相 邻 的 簇 满足 上 述 条 件 ，CHAMELEON 选择 合并 与 C; KAR AMG, 
即 选择 与 簇 C; Xt HEC Ni C;,。 一 旦 每 个 簇 都 得 到 了 与 它 的 一 个 相 邻 的 近邻 合并 的 
机 会 ， 就 执行 选择 的 合并 ， 并 重复 整个 过 程 。 注 意 ,这 个 算法 与 传统 层次 聚 类 算法 不 同 ， 在 
一 次 迭代 中 它 允 许 合并 多 对 簇 。 参 数 Th 和 Tec ARE HBR TE. FRE, BRT ey KR 
许 我 们 控制 簇 中 数据 项 的 互 连 程 度 的 可 变性 。 参 数 Ti 允许 我 们 控制 特定 簇 内 数据 项 间 相 似 
程度 的 同一 性 。 依 据 参 数 Th 和 Trc 的 设置 ， 由 于 没有 邻近 的 簇 满足 式 (11. 17) 给 出 的 条 件 ， 
因此 CHAMELEON 的 合并 算法 可 能 无 法 继续 下 去 。 这 时 ， 我 们 可 以 选择 终止 算法 并 输出 当 
前 聚 类 作为 解 ， 或 者 尝试 通过 按 不 同比 例 松 弛 两 个 参数 ， 继 续 合 并 男 外 的 簇 对 。 
CHAMELEON 算法 采取 的 第 二 种 方案 是 用 一 个 函数 来 结合 相对 互 连 性 和 相对 紧密 性 ， 然 
后 选择 合并 最 大 化 该 函数 的 簇 对 。 既 然 我 们 的 目的 是 为 了 合并 相对 互 连 度 和 相对 紧密 度 都 高 
的 复 对 ， 定 义 这 样 函数 的 自然 的 一 种 方法 是 取 它 们 的 乘积 。 也 就 是 说 ， 选 择 合 并 篮 对 C; 和 
C,, 使 得 RI(C;, C,)"RC(C;, C) 最大。 在 这 个 公式 中 ， 两 个 参数 重要 性 相同 。 然 而 ， 我 
们 常常 更 偏好 使 得 两 个 度量 中 的 某 一 个 更 高 的 簇 。 因 为 这 个 原因 ，CHAMELEON 算法 选择 这 
样 的 簇 对 ， 它 们 最 大 化 : | 
RICE., CS REC CaN IG) HA 
NH, a 是 一 个 用 户 指定 参数 。 如 果 a >1， 则 
CHAMELEON 给 相对 紧密 度 赋予 更 高 的 重要 性 。 
如 果 aw <1， 则 相对 互 连 性 具有 更 高 的 重要 性 。 
在 图 11-72 所 示 的 实验 结果 中 ，CHAMELEON 
算法 的 作者 采用 第 二 种 方法 ， 我 们 可 以 很 容易 
地 为 层次 聚 类 生成 完整 的 树 状 图 。 
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重新 考虑 图 划分 例子 中 给 出 的 数据 , 数据 图 1L-72 实验 结果 
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图 11-73 相似 性 度量 


人 在 CHAMELEON 聚 类 算法 的 第 一 阶段 ， 我 们 采用 图 划分 方法 得 到 细 粒 度 聚 类 。 对 于 所 
考虑 数据 ， 我 们 得 到 四 个 徐 ， 即 

wel: C,=1(2, 2), (3, 1), (3, 4), (5, 3)| RERA, 2 

A S19 8), COT, MO TO CH, BF HE A RISES, 6, 7, 





8}, : 

#3: C,=1(1, 6), (2, 7), (1, DI, RENARE 10, 131. 

4: C,=1(11, 4), (12, 5), (13, 4)}, Deae 11, 12, 14). 

为 了 便于 说 明 ， 我 们 对 数据 进行 重新 排序 ， 使 得 同一 组 内 的 点 是 连续 的 。 图 11.73 显示 
了 重新 排序 的 点 及 其 相似 性 度量 。 | 

在 算法 的 第 二 阶段 ， 基 于 相对 互 连 性 ( RI) 和 相对 紧密 度 度量 ， 我 们 寻找 可 以 被 合并 的 

TEX AT AEB R, RREN ECC, C) |( = 所 有 跨越 两 个 簇 的 边 的 权重 之 
All) A EC(C;) (表示 C, 的 内 部 互 连 性 )。RI(C;，C,) 由 下 式 给 出 . 
CC 


7 (1BCCC,) | + |ECCC,) |) 


表 11-19 显示 了 由 图 11-73 中 的 相似 性 度量 计算 得 到 的 | ECC, , C;) |。 表 11-19 中 的 每 
个 元 素 对 应 于 图 11-73 中 阴影 区 域 和 非 阴 影 区 域 不 同 块 中 所 有 元 素 和 。 


#11-19 敌对 的 互 连 性 ( 非 对 角 线 ) 和 内 部 互 连 性 ( 对 角 线 ) 度量 


RI(C;, C;) = (11. 19) 


| 1 2 3 4 

1 7. 567 1. 691 2. 162 1. 226 
2 1. 691 8. 001 1. 260 2. 175 
3 2. 162 1. 260 5. 828 0. 758 
4 


! 1.226 ~ 2.175 0.758 5, 323 
一 


由 表 11- 19， 我 们 采用 式 (11.19) 计 算 每 个 簇 对 的 相对 互 连 性 度量 。 结果 显示 在 
表 11-20 中 。 \ 
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R 11-20 相对 互 连 性 度量 


l 2 3 4 
1 H 0. 22 0. 32 0). 19 
2 0. 22 一 0. 18 0. 33 
3 0. 32 0. 18 — 0. 14 
4 


0. 19 0. 33 0. 14 a 


利用 表 11-20 FC AEA) BE SE HE PCR), 我 们 按 下 列 公 式 计算 相对 紧密 
度 ， 表 11-21 给 出 了 计算 结果 


SPCC C 
RC(C;, C;) EP epee (11:20: 
eet a EE C1, E eet ee 
本 
表 11-21 相对 紧密 性 度量 
1 2 3 4 
1 一 一 0. 22 0. 33 0. 19 
2 0. 22 — 0. 19 0. 34 
3 0. 33 0. 19 -一 0. 14 
4 0. 19 0. 34 0. 14 — 


接 下 来 ,我 们 结合 这 两 个 度量 来 决定 要 合并 的 簇 。 为 达到 这 个 目的 ， 通 过 把 表 11-20 和 
K 11-21 中 的 元 素 相 乘 得 到 表 11-22, 


表 11-22 互 连 性 和 紧密 性 度量 积 ( PR/ AC) 


1 2 3 4 
1 “ne 0. 05 0. 11 0. 037 
2 0. 05 Fis 0. 03 0. 11 
3 0. 11 0. 03 = 0. 018 
4 0. 037 0. 11 0. 018 sai 


RIER, 3) (2, 4) EAE RI RC RAWE. A RTT A GE Ei 
为 了 画 出 树 状 图 ， 我 们 需要 计算 簇 之 间 的 距离 ， 这 就 要 从 平均 紧密 度 度量 推导 
EC(C,, C,) =2.162,， 这 是 条 C 与 C, 内 12 个 点 的 相似 性 度量 和 。 因 此 ,平均 值 EC 


(On C, HT yoy -1 将 它 转换 为 距 











ZJN AiE | 


离 度 量 。 因 此 ， ds = one | =4.55。 类 似 


th, d,, =4.52, 
RFE RIP TR, 分别 用 Ca 和 Ca 
表示 。 
有 
4. 93 1 
“go =0- 1001, disn =a Ge] 
结果 树 状 图 显示 在 图 11-74 H, {1,2,3,4}  {9,10,13} (5,6,7,8) {11,12,14} 
图 11-74 BPR 


-1 =9 
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11.10 COBWEB 概念 聚 类 算法 


COBWEB 算法 是 由 机 器 学 习 研 究 者 在 20 世纪 80 年 代 提出 的 ， 用 于 在 对 象 - 属性 数据 
集中 对 对 象 进行 聚 类 。 它 产生 一 棵 聚 类 树 状 图 ， 称 为 分 类 树 ( classificationtree) 。 该 树 用 概率 
折 述 来 刻画 每 个 徐 。 这 个 算法 基于 所 谓 的 分 类 效用 ( Category Utility, CU) PRI XK BE tat SR IE itr 
量 。 如 果 把 一 组 对 象 划 分 到 m AGE, WW IH CU ERY: 


CERUTA PRY yey SL LE = V,)? | 





(11.21) 


SUP, A; 表示 第 i 个 属性 ,VV 是 属性 4， ~ Ci ER k GR, m 代表 簇 数目 。 
P(C,) 是 簇 C, 中 的 数据 所 占 的 比例 。 

我 们 用 下 面 的 例子 数据 来 解释 这 些 概念 。 

这 里 ,- REA RRE, A BR, A, 是 尾 。 表 11-23 数据 集 
A, 取 两 个 值 Wi = Ae ms V, = BH, ABs, 
Vn =1, Vy =2, Vx, =3 是 属性 A, 的 可 能 取 值 。 

式 (11. 21 ) 看 起 来 很 令 人 费解 ， 但 是 一 旦 你 领 
悟 了 它 的 意思 和 重要 性 便 容易 理解 了 。 公 式 中 所 包 
合 aban act amet ca 11-23 所 示 。 

EIK C, 中 的 一 个 对 象 ， 如 果 我 们 根据 出 现 的 概率 估计 它 的 属性 值 ， 那么 可 以 正确 猜 

wae 性 值 数量 为 : 





LL PASTEN (11.22) 


舍 定 一 个 其 得 未 知 的 对 象 ， 如 果 我 们 根据 出 现 的 概率 估计 它 的 属性 值 ， 那 么 我 们 期 望 可 
以 正确 猜测 的 属性 值 数量 由 这 个 公式 不 能 得 到 。P(C, ) 被 合并 到 CU 函数 ， 给 每 个 比分 配 适 
当 的 权重 。 

最 后 ， Se ae pe 

在 本 音 的 结尾 处 ， 我 们 讨论 该 公 \ 式 的 含义 。 


11. 10. 1 COBWEB 算法 


COBWEB 算法 通过 把 对 象 逐个 插入 到 分 类 树 中 来 增 量 地 构造 分 类 树 。 当 要 把 一 个 对 象 
插入 到 分 类 树 时 ，COBWEB 算法 从 根 节点 开始 自 顶 向 下 地 遍历 树 。 在 访问 每 个 节点 时 ， 
COBWEB 算法 考虑 四 种 可 能 的 操作 ， 并 选择 其 中 一 种 使 CU 函数 值 最 大 的 操作 : 

o 插入 

e 创建 

他 合并 

e 分 裂 

搬入 操作 表示 将 新 的 对 象 插入 到 一 个 已 存在 的 子 节点 。COBWEB 算法 估算 将 新 对 象 
插入 已 存在 的 子 节点 后 的 CU 函数 值 ， 并 选择 取 值 最 大 的 节 ， 点 。COBWEB 算法 也 考虑 为 新 
对 和 象 创 建新 的 子 节点 。 为 了 避免 簇 对 数据 集 输入 顺序 的 依赖 ，COBWEB 算法 考虑 合并 CU 
呐 数 值 最 高 的 两 个 子 节点 和 分 裂 取 值 最 大 的 子 节点 。 图 11-75 和 11-76 表示 了 合并 和 分 型 
操作 。 
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图 11-75 合并 图 11-76 HA 


完整 的 COBWEB 算法 在 下 文中 给 出 ， 之 后 我 们 用 一 个 例子 来 说 明 COBWEB 算法 ， 最 后 
讨论 分 类 效用 函数 。 
COBWEB 算法 


输入 : 
概念 层次 的 当前 节点 N。 
一 个 未 分 类 (属性 - 值 ) 实 例 I, 
结果 : 
用 来 分 类 实例 的 概念 层次 
Th al AA: Cobweb (Top- node, I) 
变量 :c,P,Q 和 RR 是 层次 结构 中 的 节点 
U,V,W 和 X 是 聚 类 ( 划分) 得 分 
方法 : 
Cobweb (N, I) 
Tf N 为 末端 节点 
Then Create-new-terminals(N,I); 
Incorporate (N,I1); 
Else Incorporate (N,I); 
For 节点 N 的 每 个 子 节点 C do 
， WAH IHA c 的 得 分 ; 
令 P 是 具有 最 高 得 分 W 的 节点 ; 
S o 是 具有 次 高 得 分 的 节点 ; 
令 X 是 将 工 放 人 新 节点 R 的 得 分 ; 
令 Y 是 将 P 和 0 合并 为 一 个 节点 的 得 分 ; 
令 z 是 将 P 划 分 到 其 子 节点 的 得 分 ; 
If W 是 最 高 得 分 Then 
Cobweb (P, I) (将 工 放 和 人 类别 P); 
Else if X 是 最 高 得 分 Then 
使 用 工 的 值 初始 化 R 的 概率 ; 
(将 工 放 人 新 类 别 R) ; 
Else if Y 是 最 高 得 分 Then 
& o Æ Merge (P,Q,N); 
Cobweb (0,1); 
Else if 2 是 最 高 得 分 Then 
Split (P, N]; 
Cobweb (N, I). 


辅助 COBWEB 操作 : 


变量 :N,0,P 和 RR 是 层次 结构 中 的 节点 ; 
I 是 一 个 未 分 类 的 实例 ; 
A 是 标 称 属性 ; 
v 是 一 个 属性 值 ; 


Incorporate (N, I) 
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更 新 类 别 N 的 概率 ; 
For 实例 工 中 的 每 个 属性 A do 
For A 的 每 个 值 V do 
更 新 给 定 类 别 N 中 v 的 概率 ; 
Create-new-terminals (N,I) 
创建 节点 N 的 一 个 新 子 节点 M; 
用 中 的 概率 初始 化 M 的 概率 ; 
创建 节点 的 一 个 新 子 节点 O; 
用 工 的 值 初始 化 o 的 概率 ; 
Merge (PyR,N) 
S 0 为 NN 的 新 子 节点 ; 
将 0 的 概率 设置 为 p 和 的 概率 的 平均 值 ; 
从 节点 N 移出 子 节点 P 和 R; 
将 P 和 R 添 加 为 节点 o 的 子 节点 ; 
Return O; 
Split (P,N) 
删除 节点 N 的 子 节点 P; 
EP 的 子 节点 提升 为 N 的 子 节点 ; 


11. 10.2 COBWEB: 一 个 简单 例子 


考虑 表 11-24 中 的 数据 。 让 我 们 遵循 调用 算法 时 事件 发 生 顺 序 。 这 里 属性 才 代表 颜色 ， 
A, RANK, As ERG. A, MRE Vi (白色 ) 或 Vi, (RE), A 的 值 域 为 Vz, 1, V, =2 和 
Vs =3, 同样 地 ， A, 可 取 的 值 为 V3, =] 和 Vx =2。 


表 11-24 示例 数据 


K R 性 
实例 标签 
颜色 核 Æ 
a 白色 1 1 
b 白色 2 2 
c 黑色 2 2 
d 黑色 - 3 1 


现在 ,我 们 取 第 一 个 标签 为 a” 的 实例 ， 其 属性 颜色 = 白色 ,， 核 =1， 尾 =1。 创建 一 个 
ART Ao FA 11-77 ET eee 





图 11-77 第 一 次 迭代 后 根 节点 和 它 的 内 容 


随 着 我 们 增加 更 多 数据 ， 根 节点 将 包含 叶 节 点 数据 的 全 部 统计 信息 。 

将 第 二 个 数据 插入 树 中 时 ,我们 将 它 看 作 新 的 实例 1， 并 再 次 调用 COBWEB ( Root, 
1) 。 由 于 当前 的 根 节点 是 一 个 叶 节 点 ,我 们 调用 函数 Create- new- Terminal( Root, 1) 产生 两 
个 新 的 叶 节 点 ; 分 别 把 根 节点 和 实例 了 内 容 复制 到 两 个 叶 节 点 。 算 法 调用 函数 INCORPO- 
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RATE( Root，7) 来 更 新 根 扩 点 的 概率 ， 如 图 11-78 所 示 。 














| 
Æ 1 1.0 
2 0.0 


fa P(C) = 0.5 









图 11-78 ”插入 第 二 个 数据 后 的 树 


现在 我 们 把 标记 为 “c” 的 数据 作为 实例 1 并 调用 COBWEB( Root, 1) 。 因 为 根 节点 不 是 叶 
WR, RAWH INCORPORATE (Root, 1) 并 更 新 根 节点 的 概率 值 。 根 节点 的 概率 如 图 11-79 
所 示 。 | 

ia, FRE MEER ATRA C 和 C 分 别 计算 CU 值 。 当 放置 在 
Ci 时 ， 条 件 概率 和 暂时 改变 ， 如 图 11-80 所 示 。 除 了 P(C), C 内 的 条 件 概率 保持 不 变 。 















‘Bh am i 
2 0.5 





图 11-79 更 新 后 的 根 节点 图 11-80 叶 节 点 和 根 节点 的 概率 
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然后 ， 我 们 计算 CU: 
CU, =| PCC,) + (0.5 40S) 41 40 46. 5 40 57-407) + BEC). (0 41? +47? +0° 
+0 +1” +07) — (0. 337 +0. 677 +0. 67° +0. 337 +0. 33? +0. 67? +0°) ]/2 
现在 把 7 放置 在 C, 并 计算 CU ， 条 件 概率 和 无 条 件 概率 如 下 (人 参见 图 11-81): 
CU, =[P(C,) * (1 +0° +1? +07 +1? +0 +07) +P(C,) * (0? #1? +0. 5? +0. 5° 
+0° +17 +07) — (0,33? +0. 677 +0. 677 +0. 337 +0, 33? +0. 67? +07) 1/2 


P(C,) = 1/3 C: P(C>) = 2/3 












C; = 
尾 1 1.0 尾 1 0.0 
2 0.0 2 1.0 





R 11-81 叶 节 点 和 根 节点 的 概率 


下 一 步 ， 放 置 了 作为 一 个 单独 的 节点 并 计算 CU;， 三 个 叶 节 点 的 条 件 概 率 为 (如 图 11-82 
所 示 ): 
CU; =[P(C,) * (1° +0° +1 407 44% 40° +0?) mPOA0 +17 +17 +0? +0? +17 +07) 
+PCG 9 (O +1 EO 417.40 212 40°): (0 39? £067" 40.677 +0. 337 +0, 33° 
+0. 67°40") ]/3 


尾 1 1.0 

2 0.0 

颜色 Af 1.0 
黑色 0.0 





3 = 一 
P 
E A 0.0 
2 1.0 
0.0 













核 





图 11-82 叶 节 点 的 概率 


HF CU, 最大， 我们 沿 C 放置 1。 为 此 ,调用 COBWEB(C,，1) 。( 建 议 读者 再 复习 
下 算法 。) 结 果树 如 图 11-83 和 11-84 所 示 。 | 

SHA Cs 包含 子 节 点 C 和 C4 的 汇总 统计 信息 。 现 在 ， 我 们 取 最 后 一 个 数据 集 ， 并 
标记 为 实例 7。 调 用 COBWEB( Root，7) 。 由 于 当前 根 节 点 不 是 叶 节 点 ， 调 用 INCORPORATE 
(Root，7) 并 更 新 根 节点 概率 值 。 根 节点 概率 见 图 11-85, 
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图 11-83 插入 第 三 个 数据 后 的 树 


尾 ] 1/3 
2 2/3 

颜色 Af 2/3 
墨色 1/3 


核 1 1/3 P(C2) = 2/3 
2 2/3 
3 0.0 属性 值 P 
0.0 
1.0 


尾 1 
Cı P(C;) = 1/3 2 


Ci ae ee [ee na os 


Æ 1 1.0 黑色 0.5 
0.0 
核 1 0.0 
颜色 Af 1.0 2 1.0 
Ka oo 3 0.0 
核 : ib C3 P(C3) = ] C4 P(C,) = | 
Æ 1 0.0 尾 1 0.0 
2 1.0 2 1.0 
颜色 Aff 1.0 颜色 ”和 白色 0.0 
黑色 0.0 黑色 1.0 
核 1 0.0 核 1 0.0 
2 1.0 2 1.0 
3 0.0 3 0.0 


图 11-84 插入 第 三 个 数据 后 的 节点 概率 
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算法 计算 把 7 暂时 放 在 根 的 子 节点 C, TA CUTS 此 时 ，C 的 概率 暂时 变 为 如 图 11-86 
所 示 。 除了 P(C) > C, 的 概率 保持 不 变 。 





P(C,) = 2/4 


Cl 





图 11-85 根 节 点 概率 图 11-86 ”时 节点 概率 


=[P(C,) * (1° +0° 40.5 +0.5 +0. 5? +0? 40.57) PE} + (0° +12 +0, 57 40. 5? 
+0 +1 +0’) - (0.57 +0. 57 +0. 5? +0. 57 40. 257 +0. 5? +0. 25°) 172 
现在 ,我 们 将 1 放 到 节点 C, 并 计算 C, 。 条 件 和 非 条 件 概率 为 ( 见 图 11-87) ， 
CU, =[P(C,) * (1° +0 +17 +0? +1? +0? +0707) +P(C,) * (0. 33° +0. 67° +0. 33° +0. 67° 
+0° +0. 677 +0. 337) ~ (0. 5? +0. 5° +0. 5740. 5% +0. 257 40.5? +0. 25? Vi 





图 11-87 WHR 


接 下 来 ， 我 们 将 工作 为 单独 的 节点 Ce. 这 三 个 子 节 点 的 概率 为 ( 见 图 11-88》: 

CU, =[P(C,) * (1° +0? +17 +07 +17 +0740?) + P(C,) * (17 +0? 40. 5? +0. 57 +0? +1? 
+0°) +P(C,)\* (17 +07. +0? +17 +0? +0° +17) — (0, 5? +0, 5? +0. 57 +0. 5? 
+0/25° +0.'5° +0. 25”) 1/3 

由 于 CU; 最 大 ， 我 们 创建 一 个 独立 的 节点 。 最 后 的 簇 如 图 11-89 所 示 。 
图 11-90 显示 了 在 最 后 生成 树 中 各 节点 的 概率 值 。 
分 类 效用 


现在 我 们 考虑 用 来 度量 划分 的 整体 质量 的 分 类 效用 是 如 何 计算 的 。 分 类 效用 的 定义 相当 
IRR, 
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Al 11-89 插入 第 四 个 
数据 后 的 树 


E 1 0.5 
2 0.5 

颜色 Af 0.5 
黑色 0.5 

核 1 0.25 
2 0.5 

3 0.25 


Ee 


P 
尾 1 1.0 Æ 1 1.0 尾 1 1.0 
2 0.0 2 0.0 2 1.0 

1.0 


颜色 ”白色 颜色 白色 0.5 颜色 白色 0.0 
ee ON mø os ME- EO 
RY 1 1.0 核 1 0.0 核 1 0.0 
2 0.0 2 1.0 2 0.0 
3 0.0 3 0.0 3 1.0 
Gs P(C3)= 0.25 Gi P(C,) = 0.25 

Æ 1 0.0 Æ 1 0.0 

1.0 1.0 

颜色 Af 1. 颜色 白色 00 

黑色 0.0 黑色 . 1.0 

核 1 0.0 核 1 0.0 

2 1.0 2 1.0 

3 0.0 3 0.0 


Al 11-90 插入 第 4 个 数据 后 的 节点 概率 - 
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CUC Crs Ca, ty Cr) (APONTE IPC, =V;|C,)? =X SPA; Ser 7m 


cu=+ Fpa p $, PCA; = V/C)? - > 二 P(4 A 
EP, Ci, CG, +, C, RR k ME; 外 层 的 和 是 对 所 有 的 簇 求 和 ; 里 层 的 和 是 所 有 属性 之 
Al; A; 是 第 i 个 属性 ， 它 的 取 值 为 Fass Vo es ， ERMA J ERM. 

如 采 你 花 时 间 来 研究 这 个 公式 ， 便 可 以 领会 这 个 表达 式 的 意义 。 生 成 篮 的 意义 在 于 。 
便于 对 簇 中 的 实例 属性 进行 预测 。 也 就 是 说 ,与 P( 加 =V,) 相 比 ， 对 于 簇 C, 中 的 属性 值 
A, = VW 的 实例 ，P(4,; = Vi|Ci) 具 有 更 好 的 概率 估计 ， 这 是 由 于 后 者 考虑 了 它 所 在 的 徐 。 如 
来 那个 信息 没有 帮助 ， 则 那些 簇 没 有 益处 。 上 面 的 度量 计算 (多 重 求 和 内 部 ) 的 是 在 概率 
平方 差 方 面 有 帮助 信息 的 数量 。 这 并 不 是 标准 方差 度量 。 在 内 层 双 重 和 ;概率 平方 莽 乔 
所 有 属性 以 及 所 有 可 能 取 值 上 进行 求 和 。 在 外 层 和 中 层 ， 它 对 所 有 簇 进行 加 权 求 和 ， 权 
为 该 簇 的 概率 。 


11.11 GCLUTO: 图 形 化 聚 类 工具 箱 


GCLUTO( Graphical CLUstering Toolkit， 图 形 化 聚 类 工具 ) GLUTO 数据 聚 类 库 的 一 个 图 
形 化 前 端 ， 用 来 对 低 维和 高 维 数据 集 进行 聚 类 ， 分 析 不 同 簇 的 特性 。GCLUTO 提供 了 三 种 不 
同 的 聚 类 算法 ， 直 接 在 对 象 的 特征 空间 或 相似 性 空间 上 进行 聚 类 。 这 些 算 法 分 别 是 基于 划分 
的 、 族 聚 的 和 图 划分 的 。 大 多 数 GCLUTO 的 聚 类 算法 的 一 个 关键 特征 是 把 聚 类 问题 看 作 最 
优化 过 程 ， 它 设法 最 大 化 或 者 最 小 化 定义 在 全 局 或 者 局 部 聚 类 解 空间 的 特定 聚 类 准则 函数 。 

GCLUTO 提供 了 七 种 不 同 的 准则 函数 来 驱动 划分 和 凝聚 聚 类 算法 。[6，7，8，9] 对 此 
进行 了 详 述 和 分 析 。 对 于 高 维 数据 集 ， 尤 其 是 正在 兴起 的 文档 聚 类 ， 大 部 分 准则 函数 可 以 产 
生 高 质量 的 聚 类 解 。 除 了 这 些 准 则 函数 ，GCLUTO 还 提供 某 些 传统 的 局 部 准则 (例如 ， 单 连 
接 、 全 连接 和 UPGMA)， 这 些 准 则 可 以 用 在 凝聚 聚 类 算法 中 。 此 外 ，GCLUTO 还 提供 基于 图 

划分 聚 类 算法 ,非常 适 合 于 形成 跨越 特征 空间 不 同 维 的 邻近 区 域 的 聚 类 。 基 于 划分 的 、 准 则 
驱动 的 聚 类 算法 的 一 个 重要 方面 是 优化 这 个 准则 函数 的 方法 。GCLUTO 采用 二 种 随机 增 量 优 
化 算法 ， 该 算法 本 质 上 是 贪心 的 ， 计 算 要 求 低 ， 可 以 得 到 高 质量 的 聚 类 解 [ 11] 。GCLUTO 
的 基于 图 划分 聚 类 算法 利用 高 质量 、 高 效 的 多 级 图 划分 算法 ， 这 些 算法 来 源 于 METIS, 
hMETIS 和 超 图 划分 算法 [8，9 ]。 

GCLUTO 提供 了 一 些 工 具 ， 可 用 于 理解 同一 簇 的 对 象 之 间 的 关系 和 不 同 簇 的 对 象 之 间 的 
关系 ， 并 以 可 视 化 方式 发 现 聚 类 解 。GCLUTO 可 以 识别 最 能 描述 或 者 区 分 每 个 复 的 特征 。 这 
些 特 征集 可 以 用 来 更 好 地 理解 每 个 篮 中 的 对 象 集 ， 提 供 关 于 簇 内 容 的 简洁 汇总 。 此 外 ， 
GCLUTO 提供 了 可 视 化 功能 来 查看 徐 、 对 象 、 特 征 之 间 的 关系 。GCLUTO 算法 已 经 被 优化 来 
处 理 那 些 对 象 数量 和 特征 维 数 都 很 大 的 数据 集 。 这 些 算 法 可 以 对 具有 数 以 万 计 的 对 象 、 数 以 
生计 维 数 的 数据 集 进行 快速 聚 类 。 

此 外 ， 由 于 大 多 数 高 维 数据 集 都 非常 稀疏 ， 因 此 GCLUTO 直接 考虑 这 个 稀疏 性 ， 并 且 
仓储 空间 需求 大 致 随 输入 线性 增加 。GCLUTO 的 目标 是 使 得 用 户 可 以 以 用 户 友好 的 图 形 化 方 
式 使 用 它 的 聚 类 能 力 。 些 外 ，GCLUTO 提供 了 几 种 方法 来 交互 地 显示 聚 类 结果 。 

GCLUTO 的 特征 : 它 具 有 如 下 特征 : 

1 ) 数 据 文件 、 聚 类 解 和 可 视 化 显示 的 投影 树 视图 。 

2) 详 细 的 对 话 框 ， 用 来 选择 聚 类 选项 ， 如 采用 的 方法 、 需 要 的 聚 类 数 、 准 则 函数 等 。 

3) 用 于 查看 数据 的 电子 表格 界面 。 
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4) APRA RA HTML FM o 
5) 和 矩阵 可 视 化 一 一 彩色 的 交互 矩阵 。 





6) 曲 面 可 视 化 一 一 采用 多 维 缩放 产生 的 三 维 可 视 化 显示 。 

使 用 GCLUTO: GCLUTO 简单 易 用 。 它 本 质 上 是 用 户 友 好 的 ， 呈 现 给 用 户 的 信息 都 简 
单 易 懂 。 用 户 必须 了 解 各 种 类 型 的 算法 以 及 不 同类 型 的 数据 应 采用 哪 种 对 应 算法 。 如 果 理 解 
了 这 些 问 题 ,使 用 GCLUTO 便 易如反掌 。 


11. 11.1 -概述 


当 聚 类 数据 时 ， 涉 及 很 多 信息 项 ， 例 如 ， 数 据 文件 、 聚 类 解 文件 和 可 视 化 。 和 许多 其 他 
应 用 一 样 ，GCLUTO 采用 工程 的 概念 来 组 织 用 户 的 数据 和 工作 流程 。 当 加 载 一 个 工程 时 ， 它 
的 内 容 将 被 显示 在 如 图 11-91@ 部 分 的 树 形 视图 中 。 

工程 中 的 每 个 项 目 在 树 中 显示 为 一 个 图 标 。 以 图 标 呈 现在 树 结构 中 的 各 种 项 目 包括 : 

1 ) 工 程 一 一 这 表示 工程 本 身 。 它 是 工程 树 的 根 。 一 个 工程 可 以 包含 许多 不 同 的 数据 项 。 
Ea. 

2) 数 据 一 一 输入 数据 到 工程 之 后 ， 这 些 图 标 中 的 一 个 将 出 现在 工程 树 中 。 对 于 一 个 数 
据 ， 可 能 存在 许多 解 ， 这 取决 于 用 户 为 聚 类 数据 给 出 的 选项 。 数 据 表 示 为 钨 ]。 

3) 解 一 一 一 个 数据 项 目 被 聚 类 后 ， 将 创建 一 个 解 项 并 放置 在 数据 项 的 下 面 。 解 表示 
@. 

4) FE Me FY 4:3 6 Jig EAE PRT vr SA A AR H SE E BE BP TT 
矩阵 可 视 化 表示 为 图 。 

5 ) 曲面 可 视 化 (mountain visualization ) 
间 的 相互 关系 。 曲 面 可 视 化 表示 为 朝 。 

和 窗口 树 形 结 构 一 样 ， 右 击 任何 项 目 将 出 现 一 个 菜单 ， 显 示 可 以 在 该 项 目 上 执行 的 操 
作 。 双 击 任何 项 目 将 在 一 个 新 窗口 中 打开 它 的 内 容 ， 该 窗口 被 称 为 视图 ( View)。 这 与 图 11- 
91 中 的 窗口 四 ，( 和 中 相似 。 

当 在 其 中 一 个 视图 中 工作 时 ， 与 该 视图 内 容 对 应 的 额外 菜单 选项 会 出 现在 菜单 栏 中 。 

使 用 GCLUTO 聚 类 包含 的 步骤 

1) 首 先 ， 创 建 一 个 包含 被 聚 类 数据 的 矩阵 或 者 图 文件 。 

2) 从 文件 打开 对 话 框 新 建 一 个 工程 文件 。 

3) 将 数据 导入 到 工程 。 数 据 来 源 于 步骤 1 中 的 矩阵 或 者 图 文件 。 

4) 采 用 给 定 的 各 种 选项 聚 类 数据 。 这 些 选 项 包括 : 采用 的 方法 、 需 要 的 复数 目 等 。 通 
过 右 击 该 数据 可 以 打开 聚 类 对 话 框 。 一 旦 完成 这 些 步骤 ， 你 就 可 以 得 到 解 。 解 在 右 侧 ， 给 出 
了 簇 的 详细 信息 。 

5 ) 以 矩阵 形式 和 曲面 形式 通过 可 视 化 方式 显示 解 。 这 可 以 通过 右 击 解 ， 并 选择 矩阵 或 
曲面 选项 实现 。 

在 接 下 来 的 内 容 中 ， 我 们 将 详细 讲述 这 些 步 又 。 

创建 数据 文件 : GCLUTO 接受 两 种 格式 的 数据 : 图 文件 和 和 矩 阵 文件 。 它 也 可 以 由 可 选 的 
包含 各 种 对 象 的 列 标记 和 类 标记 的 文件 接受 数据 。 

EEL: 这 个 文件 包含 矩阵 形式 的 数据 。 每 一 行 代表 一 个 对 象 ， 列 表示 对 象 的 维 。 
GCLUTO 以 两 种 格式 理解 矩阵 文件 ; PRE AAR BA. MIL file_ 





这 是 另外 一 种 可 视 化 ,用 3D 方式 来 描述 艇 之 
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图 11-91 GCLUTO 屏幕 截图 


Mp FEE IG XA AE A ME PK AER Wy AMES 具有 m 行 n IREA 
LAS SERRE ht 该 文件 包含 m+1 行 。 第 一 行 包含 关于 和 矩阵 大 小 的 信息 ， 其 余 m 行 
为 中 实数 据 。 第 一 行 包含 矩阵 行 数 、 列 数 以 及 非 零 元 素 的 数目 。 这 些 数 据 必须 按照 这 个 | 顺序 
给 出 。 pt (被 指定 为 “ 列 - 值 "对 。 在 GCLUTO 中 的 列 编号 由 1 开始 ， 而 不 是 
PC. C++. Java 等 流行 编程 语言 那样 由 0 开始。 通常 ， 列 值 为 整数 ， 而 数据 值 为 实数 。 表 
11-25 给 出 了 一 一 个 稀 下 和 矩阵 和 对 应 的 矩阵 文件 。 


# 11-25 fi 


12 
>10 
LOG 23 


矩阵 文件 
稠 宅 和 矩阵 形式 : 稠密 矩阵 中 的 多 数 元 素 为 非 零 元 素 。 具 有 m 行 n 列 的 稠密 矩阵 4 也 以 
纯 文本 文件 存储 ， 该 文件 包含 m +1 行 。 第 一 行 只 包含 矩阵 大 小 的 信息 ;即行 数 和 列 数 。 这 
蛙 数 据 必须 按照 这 个 顺序 给 出 。 数 据 以 (m xn) 的 格式 表示 ， 第 i 个 值 对 应 于 矩阵 4 的 第 i 
- 列 。 表 11-26 显示 了 一 个 稠密 矩阵 和 对 应 的 矩阵 文件 。 





KZH 273 





R 11-26 MEER, SRR 
5 4 
LO = 0.454 .0d29 0:54 
1.23 21. -0.34 -0.56 
034 15. 098 2H 
-0.76 1.2 -023 12 
0.45 0.43 0.13 "44- 
矩阵 文件 


图 文件 ; 图 文件 也 包含 矩阵 形式 的 数据 ， 但 是 数据 以 邻接 矩阵 形式 表示 ， 说 明 被 聚 失 对 
象 的 相似 性 。 和 矩阵 的 每 一 行 /列表 示 一 个 对 象 ， 位 置 (i, 让 处 的 值 表示 第 i 个 对 象 和 第 j 个 对 
象 之 间 的 相似 性 。 图 文件 可 以 以 稀 政 图 形式 和 稠密 图 形式 两 种 格式 给 出 。 这 两 种 形式 的 数据 
表示 与 矩阵 形式 的 解释 类 似 ， 只 是 这 里 的 矩阵 都 是 方 阵 。 图 文件 都 以 <file_name >. graph 格 
式 存储 ， 其 中 file_name 表示 存储 文件 的 文件 名 。 | 

WRAK: HA n STARA BRM A 被 存储 在 一 个 包含 ”+1 行 的 无 格式 
文件 中 。 第 一 行 包含 矩阵 大 小 信息 ， 其 余 n 行 包含 实际 数据 。 准 确 地 说 ， 第 一 行 包括 两 个 整 
数 ， 即 图 中 的 顶点 数 和 非 零 元 素数 。 每 个 顶点 的 邻接 结构 被 指定 为 空间 上 分 离 的 对 列表 。 每 
个 对 包含 邻接 顶点 的 数量 ， 紧 随 其 后 的 是 对 应 边 的 相似 性 。 通 第 ， | 而 数据 值 是 
实数 值 。 表 .11-27 显示 了 一 个 稀 玖 图 和 相应 的 图 文件 数据 。 


表 11-27 me 








— A WD P m 
on 
© 


稠密 图 形式 : 拥有 个 顶点 的 稠密 图 的 邻接 矩阵 4 被 存储 在 一 个 包含 n+1 行 的 无 格式 
文件 中 。 第 一 行 包含 矩阵 大 小 信息 ， 其 余 n 行 包含 实际 数据 。 数 据 以 (nxn) 的 格式 表 不 ， 
第 i 个 值 对 应 WET AE A 的 第 i 列 。 如 表 11-28 所 未 。 


表 11-28 稠密 图 
5 


10 06 09 02 09 

0.2 10 02 16 0.4 

04 05 10 14 0.2 

05 i2 07 a Oe 

CO0" 23°08 FO 
图 文件 


可 选 文件 : 为 了 提供 标号 作为 输入 ，GCLUTO 提供 了 三 类 可 选 文件 ， 即 行 标号 文件 、 列 
标号 文件 和 行 类 标号 文件 。 

行 标号 文件 : 该 文件 存储 每 个 行 的 标号 。 如 果 和 矩阵 的 行 数 是 柬 ， 那 么 这 个 文件 应 该 只 包 
A m 行 。 每 行 所 存储 的 信息 被 看 作 一 个 串 ， 并 变 成 矩阵 对 应 行 的 标号 。 也 就 是 说 ， 这 个 文 
件 的 第 i 行 包含 矩阵 的 第 i 行 的 标号 。 这 个 文件 以 格式 <fle_ name >. mat. rlabel 或 者 <file- 
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name >. graph. clabel 存储 。 | 

列 标记 文件 : 该 文件 存储 每 列 ( 特征 ) Khe, MRA MEE n 列 ， 那 么 这 个 文件 应 
该 精确 地 包含 4 行 。 每 行 所 存储 的 信息 被 看 作 一 个 串 ， 并 变 成 矩阵 对 应 列 的 标号 。 也 就 是 
说 ， 这 个 文件 的 第 ; 行 包含 矩 阵 的 第 守 列 的 标号 。 这 个 文件 以 格式 < file_name >. mat. clabel 
或 者 <file_name >. graph. clabel 存储 。 

行 类 标号 文件 : 它 包含 矩阵 行 的 类 标号 。 如 果 和 矩阵 中 共有 必 稠 ， 那么 该 类 标号 文件 应 
该 只 包含 m 行 。 每 行 中 存储 的 信息 可 以 被 看 作 一 个 串 ， 并 变 为 矩阵 中 对 应 的 对 象 的 类 - 标 
Era SUEMW. < file name >. relass 格式 存储 。 

创建 一 个 新 工程 : 当 第 一 次 运行 CCLUTO 时 ， 它 以 一 个 空 的 工程 树 开始 。 为 了 开始 工 
E, 必须 创建 一 个 新 的 工程 。 为 了 创建 工程 ， 定位 到 菜单 栏 并 选择 “File”， 然 后 选择 “New 
Project” 。 此 时 将 显示 一 个 文件 对 话 窗口 。 为 工程 指定 名 称 和 在 计算 机 上 的 保存 位 置 。 

GCLUTO 会 创建 一 个 目录 ， 称 为 工程 目录 ( project directory ) 。 工 程 目录 以 工程 命名 ， 并 
被 仓储 在 指定 位 置 。 在 工程 目录 中 ，GCLUTO 保存 了 与 工程 有 关 的 所 有 信息 。 

为 打开 一 个 已 存在 的 工程 ， 选 择 “File” 菜 单 ， 然 后 选择 “ Open Project”。 将 弹出 一 个 文件 
对 话 窗 kdo FME TE 目录 位 置 》 打开 日 录 内 的 文件 “ Project_name. prj s (ix , Project_name 
和 工程 目录 名 相同 ) 。 选 择 这 个 文件 并 单 击 “Open”。 

宛 成 这 些 步骤 后 ， 一 个 工程 便 会 被 加 载 和 显示 在 工程 树 中 。 

FARE: 为 导入 一 个 新 的 数据 项 ， 转 到 菜单 栏 并 选择 “ Project” ， 然 后 选择 “Import Da- 
ta ， 将 会 显示 Import Data 对 话 框 ， 用 户 可 在 该 对 话 框 中 为 上 面 所 列 的 每 种 文件 类 型 指定 文 
件 位 置 。 

用 户 可 以 给 数据 项 指定 一 个 标号 。 如 果 没 有 给 出 标号 ， 数 据 项 将 按照 去 除 扩展 名 
HJ x. mat 文件 文件 命名 。 根 据 数据 的 文件 格式 ， 用 户 可 以 提供 一 个 图 文件 或 矩阵 文件 。 除 
了 该 文件 ， 用 户 可 以 提供 标号 文件 ， 用 来 显示 解 中 的 标号 。 miir Browse” 按 钮 ， 用 户 可 以 提 
供 对 应 文件 。 用 户 还 必须 选择 合适 的 选项 ， 说 明 * . mat 文件 包含 矩阵 数据 还 是 图 数据 。 默 
认 文 件 选项 是 . mat 文件 格式 。 

如 果 首 先 选 择 * . mat 文件 ，GCLUTO 会 通过 附加 扩展 文件 名 到 * :mat 文件 名 ， 尽力 猜 
测 可 选 文件 ( *. rlabel, *.clabel, x. rclass ) 的 位 置 。 

点 击 Import Data 对 话 窗口 的 “OK” 后 , GCLUTO 会 试图 在 选择 的 文件 中 读 取 数据 ， 如 果 
ERRE, GCLUTO 会 在 工程 树 中 添加 一 个 新 的 数据 项 ， 并 打开 一 个 数据 视图 。 数 据 视 图 
允许 用 户 观察 数据 ， 并 验证 它 是 否 被 正确 加 载 。 

RABE: 如 果 已 用 先前 步骤 将 数据 导入 ， 则 可 以 进行 聚 类 。 聚 类 可 以 用 两 种 不 同 的 方 
式 局 动 。 第 一 种 方法 是 从 弹出 菜单 中 选择 “Cluster”， 右 击 工程 树 的 数据 项 将 会 弹出 该 菜单 。 
第 二 种 方法 是 如 果 数 据 视图 已 经 打开 ， 可 以 在 “Data” 莱 单 栏 下 找到 相同 的 菜单 。 

无 论 从 哪个 菜单 选择 了 “Cluster”， 将 显示 Clustering Option 对 话 框 ， 该 对 话 框 包括 所 有 
聚 类 可 用 的 选项 。 关 于 选项 的 更 详尽 说 明 将 在 后 面 的 内 容 中 给 出 。 为 了 帮助 用 户 做 出 明智 的 
选择 ， 在 用 户 进行 选择 时 ，GCLUTO 会 自动 更 新 对 话 框 ， 保证 只 提供 合理 的 选择 。 

— Aver T] RAAM, ZE Cluster Option 对 话 话 中 点 击 “ Cluster”。GCLUTO 完成 聚 类 计算 
后 ， 会 在 工程 树 中 创建 一 个 解 项 ， 该 解 项 位 于 聚 类 数据 项 的 下 面 。 

CCLUTO 还 会 目 动 打开 一 个 与 图 11-91 的 @ 部 分 类 似 的 解 视图 。 该 视图 包含 聚 类 所 采用 
的 选项 和 一 些 关 于 簇 的 统计 数据 。 其 中 一 些 重要 的 统计 数据 是 Tsim 徐 内 元 素 间 的 内 部 相 
似 性 ，Isdev 一 一 簇 内 元 素 的 标准 差 ，Esim 一 一 簇 元 素 与 其 他 元 素 的 外 部 相似 性 ，Esdev 
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簇 元 素 与 其 他 元 素 的 外 部 标准 差 。GCLUTO 也 提供 另外 两 个 重要 的 统计 数据 ， 即 描述 和 区 
别 。 一 个 簇 的 描述 统计 详尽 描述 了 簇 内 特征 之 间 的 相似 程度 。 区 别 统 计 给 出 了 同一 簇 内 特征 
之 间 的 差异 程度 。 | 

可 视 化 解 : 当前 ，GCLUTO 包含 两 种 可 视 化 : 矩阵 可 视 化 (Matrix Visualization ) 和 曲面 可 
视 化 (Mountain Visualization) 。 从 “solution” 菜单 可 以 选择 期 望 得 到 的 可 视 化 ， 可 视 化 结果 可 
以 由 这 些 解 生成 。 这 个 菜单 可 以 用 如 下 方法 找到 : 在 工程 树 中 右 击 解 项 目 ,， 或 者 如 果 此 时 用 
户 工 作 在 解 视图 ( Solution View) 下 的 话 ， 可 以 在 “Solution” 菜 单 栏 下 面 找 到 。 

矩阵 可 视 化 ， 在 矩阵 可 视 化 方法 中 ,原始 数据 矩阵 被 显示 ， 用 颜色 形象 地 表示 和 矩阵 中 的 
值 。GCLUTO 采用 白色 表示 接近 零 的 值 ， 逐 渐 加 深 的 红色 调 表 示 代 表 数 量 大 的 值 ， 逐 渐 加 次 
的 绿色 表示 负 值 。 和 矩阵 的 行 被 重新 排序 ， 使 得 同一 簇 的 行 在 一 起 。 黑 色 水 平分 割 器 分 离 各 个 
fie. WK 11-92 所 示 。 | 
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FA 11-92 ”矩阵 可 视 化 的 屏幕 截图 


如 果 选 择 构 建树 ， 和 矩阵 可 视 化 中 将 包含 树 ， 它 位 于 矩阵 的 上 方 和 左 部 。 如 果 采 用 了 凝聚 
聚 类 算法 ， 在 聚 类 过 程 中 产生 的 树 显 示 为 行 树 (Row Tree) 。 否 则 ， 产 生 一 棵 拟 合 聚 类 解 的 
树 。 在 矩阵 的 反 转 上 执行 凝聚 聚 类 将 产生 列 树 (Column Tree) 。 

在 导入 数据 时 ， 如 果 选 择 了 行 和 列 标 记 ， 则 它们 会 显示 在 矩阵 的 下 方 和 右 部 。 当 空间 足 
够 时 才 会 显示 标号 。 

为 了 帮助 探查 Matrix Visualization 中 包含 的 信息 ， 实 现 了 几 个 特征 。 首 先 ， 和 矩阵 大 小 可 
以 用 多 种 方法 进行 缩放 。 其 次 ， 树 可 以 用 来 折 和 至 和 展开 和 矩阵 中 感 兴趣 区 域 。 

矩阵 可 视 化 一 一 缩放 : 最 简单 的 缩放 和 矩阵 的 方法 是 使 用 位 于 矩阵 上 方 的 比例 缩放 控件 。 
在 文本 框 中 输入 一 个 新 的 数值 ， 或 者 点 击 向 上 或 向 下 箭头 可 以 改变 缩放 比例 。 标 记 为 “W” 
的 控件 控制 矩阵 的 宽度 ， 标 记 为 “H7” 的 控件 影响 矩阵 高 度 。 这 些 缩放 控件 改变 矩阵 的 维 ， 便 


276 h 1# 





于 对 矩阵 中 感 兴 趣 的 区 域 进行 缩放 。 

有 了 时， 用 户 需 要 放大 和 矩阵 的 某 一 区 域 ， 同 时 缩小 不 重要 的 区 域 。 这 类 缩放 也 可 以 实现 。 
为 了 调整 乍 阵 茶 部 分 的 大 小 ， 选 择 要 调整 大 小 的 区 域 。 点 击 任何 单元 并 拖 动 鼠标 到 另 二 个 单 
元 完成 选择 。 这 两 个 单元 便 成 为 选择 区 域 的 两 个 角 。 被 选择 单元 用 蓝 色 覆 盖 。 为 重新 调整 选 
择 区 域 的 大 小 ， 将 鼠标 置 于 所 选区 域 任意 边 之 上 ， 光 标 将 变 为 调整 大 小 光标 。 点 击 并 拖 动 边 
到 期 望 位 置 。 被 选 的 所 有 单元 将 被 重新 调整 以 适应 新 的 区 域 。 ; 

最 后 ， 通 过 依次 选择 菜单 栏 上 的 “Matrix” 一 “ Reset Sizing” , 矩阵 可 以 恢复 到 它 的 原始 比 
例 。 选 择 “Matrix” 菜 单 内 的 “Fit to Sereen” 可 以 让 和 矩阵 自动 缩放 以 适合 屏幕 的 大 小 。 

矩阵 可 视 化 一 一 使 用 树 ; 行 树 和 列 树 可 用 于 折 释 (collapsing) 和 展开 (expanded) 和 矩阵 。 树 
中 蓝 色 方 块 表示 完全 展开 的 节点 。 点 击 任意 一 个 展开 的 节点 可 以 折 又 该 节点 PBA AD 
粉红 色 方 块 表示 。 当 折 秋 一 个 节点 的 时 候 ， 其 所 有 后 代 均 被 隐藏 。 如 果 行 树 中 的 二 个 节点 被 
折合， 那么 折 双 区域 的 所 有 行 均 被 隐藏 ， 并 以 包含 这 些 行 的 均值 的 一 行将 其 替代 。 仅 需 点 击 
一 个 折 驹 市 点 即 可 将 其 再 次 展开 。 列 树 的 工作 方式 与 此 类 似 。 

标记 将 变化 以 描述 被 折 又 的 区 域 。 如 果 区 域 包 含 的 行 都 属于 一 个 相同 的 徐 ， 则 它 将 用 该 
IRAY ID brid, MRA MEERA Kh, Copii SHR”. l 

曲面 可 视 化 : 曲面 可 视 化 ( 见 图 11-93 ) 用 于 可 视 化 聚 类 间 的 相对 相似 性 以 及 它们 的 大 小 、 
内 部 相似 性 和 内 部 偏差 。 在 曲面 可 视 化 中 ， 每 个 簇 表 示 为 3D 地 形 中 的 一 个 山峰 。 山 峰 的 位 
置 、 容 量 、 高 度 和 颜色 均 用 于 描绘 其 相关 的 簇 的 信息 。 
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图 11-93 曲面 可 视 化 截图 
用 户 能 够 通过 在 3D 显示 中 点 击 和 拖 动 鼠 标 进 行 3D 可 视 化 的 导航 。 不 同 的 鼠标 键 完成 
不 同 的 动作 : 
em Ae: 旋转 
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e 点 击 右键 : LB. FR. 左 移 和 右 移 

e 点 击 中 键 : 缩放 

广 些 山峰 在 平面 中 的 位 置 通过 在 每 个 簇 中 点 上 的 多 维 缩放 (MDS) 来 决定 。MDS 试图 在 
顶点 从 高 维 空间 映射 到 低 维 空间 时 保留 顶点 之 间 的 距离 信息 。 在 本 应 用 中 ， 簇 中 点 作为 
MDS 中 的 顶点 并 映射 到 一 个 二 维 平面 。 

MDS 允许 用 户 使 用 曲面 可 视 化 对 其 数据 进行 推理 。 例 如 ， 在 图 11-93 中 ， 一 个 数据 矩阵 
聚 类 为 10 个 徐 。 曲 面 可 视 化 将 10 ERRA 10 个 山峰 并 以 其 簇 耻 标记 。 尽 管 要 求 产 生 10 
Pik, 但 是 MDS 将 这 些 山峰 放置 在 2 个 不 同 的 组 群 中 。 我 们 可 以 推测 出 每 个 组 群 中 的 族 相 
似 性 极 高 ， 而 分 置 于 不 同 组 群 的 簇 之 间 有 具有 很 大 的 差异 性 。 因 而 ,可 视 化 的 结果 显示 数据 最 
好 地 被 二 路 聚 类 (two-way clustering) o 

每 个 山峰 的 形状 都 是 高 斯 曲线 。 这 种 形状 用 于 对 每 个 篮 中 的 数据 分 布 进行 粗略 估计。 每 
个 山峰 的 高 度 和 簇 内 部 的 相似 性 成 正比 。 山 峰 的 体积 和 每 个 簇 中 的 元 素 个 数 成 正比 。 产 生 的 
高 斯 曲线 进行 铸 加 形成 曲面 可 视 化 区 域 。 

注意 . 在 比较 山峰 的 高 度 时 请 牢记 曲面 可 视 化 已 经 对 粉红 色 曲 线 进行 了 蕉 加。 如 图 
11-94 所 示 ， 最 终生 成 的 高 度 比 实际 高 度 要 高 。 





图 11-94 ”如 何 冯 加 顶峰 的 高 度 


山峰 的 颜色 和 簇 的 内 部 偏差 成 正比 。 红 色 表 示 低 偏差 ， 蓝 色 表 示 高 偏差 。 只 有 山峰 的 项 
部 的 颜色 是 重要 的 。 在 其 他 部 分 ， 其 颜色 决定 于 混合 颜色 的 平滑 过 渡 。 

点 击 任意 标记 将 在 可 视 化 窗口 之 下 的 文本 窗口 中 载 人 相关 簇 的 统计 信息 。 这 个 信息 和 人 解 
报告 (Solution Report) 中 的 信息 相同 。 如 果 选 择 列 标 记 作为 数据 的 标识 ， 则 曲面 可 视 化 能 够 
在 每 个 山峰 的 上 部 显示 最 常见 的 特征 。 这 一 选项 称 为 “Show Features”, 4 可 在 “Mountain ” 沫 单 
中 找到 该 选项 。 


11. 11. 2 GCLUTO 中 的 可 用 选项 


在 导入 的 数据 上 单 击 鼠 标 右键 并 选择 聚 类 ， 将 得 到 如 图 11-95 所 示 的 界面 。 根 据 所 选择 
方法 的 不 同 ， 可 以 获得 其 他 针对 这 一 方法 可 用 的 选项 。 | 

聚 类 方法 。 GCLTUTO 提供 了 四 种 聚 类 方法 。 

反复 二 分 法 。 在 这 种 方法 中 ， 期 望 的 类 路 聚 类 通过 大 = 工 次 反复 二 分 实现 。 使 用 这 种 方 
法 ， 和 矩阵 首先 聚 类 为 两 组 ， 然 后 选中 其 中 一 组 并 进一步 二 分 。 继 续 这 一 过 程 ， 直 到 得 到 期 户 
的 簇 个 数 为 止 。 二 分 聚 类 以 如 下 方式 进行 ， 即 在 每 一 步 ， 优 化 一 个 特定 聚 类 函数 (由 用 户 给 


278 HË 





图 11-95 FRA ET FF 


直接 方法 。 在 这 种 方法 中 , k 路 聚 类 通过 同时 找到 个 簇 来 实现 。 这 种 方法 比 反 复 二 分 
法 慢 。 对 于 上 大 值 小 于 10 ~ 20 的 情况 ， 使 用 这 种 方法 可 以 获得 更 好 的 结果 。 对 更 高 的 大 值 ， 
反复 二 分 法 是 更 好 的 方法 。 

凝聚 方法 。 这 种 方法 是 自 底 向 上 的 方法 。 数 据点 最 初 被 当 作 是 单独 的 化， 然后 通过 使 用 
茶 种 准则 函数 ， 这 些 单独 的 复 被 一 步 步 聚 合 ， 直 到 得 到 期 望 的 和 能 为 止 。 凝 聚 法 有 四 种 聚 类 函 
数 : 单 链接 (single link) 、 完全 链接 (complete link) 、 加 权 简 单 链接 ( weighted simple link ) 和 
UPGMA 

图 方法 。 在 这 种 方法 中 ， 期 望 的 大 路 聚 类 通过 首先 获得 一 个 最 近邻 图 ， 其 中 每 个 对 象 被 
当 作 一 个 项 点， 而 每 个 对 象 和 其 最 为 相似 的 其 他 对 象 相连 接 来 实现 。 然 后 ， 通 过 使 用 最 小 割 
( mincut) 图 划分 算法 将 图 划分 为 上 个 簇 。 

所 示 的 屏幕 中 显示 了 使 用 反复 二 分 法 的 各 种 选项 : 簇 个 数 、 相 似 性 函数 、 HE WU PRIA. íT 
模型 、 渤 代 次 数 、 列 裁剪 等 。 下 面 我 们 讨论 每 种 方法 的 各 种 不 同 选项 。 

所 有 方法 的 公共 选项 

相似 函数 。GCLUTO 提供 了 三 种 相似 度 函 数 ， 即 余 强 、 相 关系 数 和 欧式 距离 。 

余弦 选项 。 对 象 间 的 相似 度 通过 计算 向 量 的 余弦 函数 得 到 。 这 是 默认 值 。 

相关 和 系数。 对象 间 的 相似 度 通 过 计算 向 量 的 相关 系数 得 到 。 

欧式 距离 。 对 象 间 的 相似 度 是 和 它们 之 间 的 欧式 距离 负 相 关 的 。 | 
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两 个 对 象 和 7 之 间 的 相似 度 通过 下 式 给 定 
Sat. Pr et ki 

其 中 ，d, 是 数据 集中 任意 两 个 对 象 间 的 最 大 距离 ，d; 是 第 i 个 对 象 和 第 j 个 对 象 间 的 距离 。 

族 个 数 。 这 是 一 个 整数 ， 指 定数 据 将 被 划分 成 的 簇 的 个 数 。 

行 模型 。 行 模型 选择 用 于 缩放 每 行 各 列 的 模型 。 可 能 值 为 none、maxtf、sqrt 以 及 log. 

none。 列 值 即 为 输入 文件 所 提供 的 值 。 这 是 默认 值 。 

maxtf。 每 行 的 列 值 缩放 到 0.5 和 1.0 之 间 。 

sqrt。 每 行 的 列 值 为 其 实际 值 的 平方 根 。 

log。 每 行 的 列 值 为 其 实际 值 的 对 数值 。 

列 裁剪 。 一 般 而 言 ， 并 非 所 有 的 维 都 对 数据 的 聚 类 有 用 。 根 据 Pareto 法 则 ， 只 有 一 个 很 
小 的 维 集 合 对 聚 类 有 贡献 ， 也 就 是 说 ， 只 有 很 少 的 维 是 真正 起 作用 的 。 因 此 ， 可 以 在 不 影响 
最 终结 果 的 前 提 下 删除 一 些 维 。 这 个 值 指定 了 在 进行 聚 类 之 前 需要 删除 的 列 所 占 的 比例 。 这 
个 值 应 该 在 0.5 和 1 之 间 。 总 体 而 言 ， 这 个 参数 可 以 在 不 严重 影响 总 体 聚 类 质量 的 前 提 下 ， 
大 大 减少 列 的 个 数 。 | 

在 直接 方法 中 可 用 的 附加 选项 。 直 接 方法 在 五 个 基本 选项 的 基础 上 提供 了 三 个 附加 选 
项 ， 它 们 是 : 迭代 次 数 、 试 验 次 数 和 准则 函数 。 ; 

迭代 次 数 。 这 个 值 表示 在 聚 类 的 每 一 步 中 进行 的 精炼 迭代 次 数 。 合 理 的 取 值 在 5 ~20 之 
间 。 默 认 值 为 10。 

试验 次 数 。 这 个 值 指定 了 要 计算 的 聚 类 解 的 个 数 。 如 果 给 定 的 值 为 >， 那 么 GCLUTO 将 
使 用 不 同 的 初始 化 种 子 ， 计 算 n 个 不 同 的 聚 类 解 ， 然 后 在 其 中 选择 最 好 的 解 。 默 认 值 为 10。 

准则 函数 。 基 本 上 ，GCLUTO 提供 了 七 种 准则 函数 来 产生 聚 类 ,它们 是 i 计 ，i,，e,，g,， 
ays hi, hoo 数学 公式 见 表 11-29, 


表 11-29 GCLUTO 的 准则 函数 和 优化 函数 列表 


准则 函数 TAG PR 

I, maxirnize Z sa Y sim(v,u) | ED 
f maxirnize 2 / > sim(v,u) | (2) 

gS : È veswessin(y, u) | 
E, maxirnize 2 n, i sae E (3) 

| : Lives uessim(y, u) 
EE f 4 
G, maxirnize by nT i F (4) 
x 2 Lives uessim( vy, u) 

: noe 2 A 5 
C maxirnize 2, nv, UE date 5 (5) 


H, maxirnize — (6) 


H, maxirnize E YA 
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l)i, AFEN PAL I o ARROL AAR PR ANAA 

2)i 选择 准则 函数 o AARRE RR RAKEI PR AAE EY 
AR [ia Ath FAERIE PRE ARR o 

3 )ei VE PEE UU PRA E o AA RRO Side A) EID JE aR LE NAMER ENAR o 

4)g 一 一 选择 准则 函数 C, 。 这 个 函数 除了 分 母 不 取 平 方 根 之 外 其 他 部 分 和 E, 相同 。 

5 )8 一 一 选择 准则 函数 G,'。 这 个 函数 除了 增加 n; 和 分 母 不 取 平 方 根 之 外 其 他 部 分 也 
Ail E, 相同 。 

6 )h, 选择 准则 函数 H, o 这 是 一 个 混合 因数 ， 试图 最 大 化 /Eo 

7 ) 有 一 一 选择 准则 水 数 H,。 这 是 一 个 混合 函数 ,试图 最 大 化 [7E,。 

反复 二 分 法 可 用 的 附加 选项 。 反 复 二 分 法 在 四 个 基本 选项 的 基础 上 提供 了 四 个 附加 选 
TH, ENTERAL. YEU PRA TI ARE PE, TEAR. MEM RRL Rei AA 
直接 方法 相同 。 

ik AE, GCLUTO 在 重复 划分 的 方法 中 为 用 户 提 供 两 种 方法 选择 艇 。 这 两 种 方法 是 Best 
(最 好 ) 和 Large( 最 大 )。 

最 好 。 选 择 可 以 使 总 体 聚 类 函数 值 最 优 的 簇 进行 二 分 。 这 是 默认 值 。 

好 大。 选择 当前 最 大 的 簇 在 下 一 步 中 进行 二 分 。 

凝聚 法 中 可 用 的 附加 选项 。 凝 聚 法 在 四 个 基本 选项 的 基础 上 提供 了 一 个 附加 选项 。 这 个 
选项 是 准则 孙 数 。 

准则 函数 。 凝 聚 法 使 用 四 个 函数 将 个 体 簇 分 组 ， 直 到 得 到 满足 要 求 的 簇 个 数 。 它 们 是 : 

Wslink : 选择 加 权 单 链接 准则 肯 数 。 

Clink; 选择 传统 完全 链接 准则 函数 。 

Welink: 选择 聚 类 加 权 完 全 链接 准则 函数 。 

Upgma: 选择 传统 Upgma MEMI pA. 

图 方法 中 可 用 的 附加 选项 。 图 方法 在 四 个 基本 选项 的 基础 上 提供 了 七 个 附加 选项 。 它 
们 是 : 

1 ) 最 近邻 。 这 个 参数 指定 每 个 对 象 的 最 近邻 个 数 并 用 于 生成 最 近邻 图 ， 进 而 用 于 基于 
图 划分 的 聚 类 算法 。 

2) 边 裁剪 。 该 参数 用 于 消除 最 近邻 图 中 的 某 些 可 能 将 不 同 复 中 顶点 相连 的 边 。 

3 ) 顶点 裁剪 。 该 参数 用 于 消除 最 近邻 图 中 某 些 可 能 是 离 群 点 的 顶点 。 

4) 最 小 连通 分 支 。 该 参数 用 于 在 聚 类 前 从 最 近邻 图 中 消除 小 连通 分 支 。 

5 ) 图 模型 。 该 参数 控制 实时 构建 并 提供 给 基于 图 划分 聚 类 算法 的 最 近邻 图 的 类 型 。 有 
四 种 图 模型 ， 即 直接 对 称 、 直 接 非 对 称 、 对 称 链接 和 非 对 称 链接 。 

6) 直接 对 称 。 图 以 如 下 方式 构建 ， 即 两 个 对 象 u 和 zy 之 间 存 在 一 条 边 ， 当 且 仅 当 二 者 存 
在 于 彼此 的 最 近邻 列表 中 。 也 就 是 说 ,wu 是 > 的 最 近邻 ， 反 之 亦 然 。 

7) 直接 非 对 称 。 图 以 如 下 方式 构建 ， 即 两 个 对 象 u 和 vw 之 间 存 在 一 条 边 ， 只 要 一 个 对 象 存 
在 于 男 一 个 对 象 的 最 近邻 列表 中 。 也 就 是 说 ,，v 是 u 的 最 近邻 之 一 或 wu 是 v 的 最 近邻 之 一 。 

8) 对称 链 接 。 图 以 和 直接 对 称 同 样 的 邻接 结构 构建 。 但 是 ， 每 条 边 (u, v) WES F u 
和 vw 的 近邻 节点 列表 中 的 共同 顶点 个 数 。 这 一 选项 由 CURE 算法 所 使 用 的 链接 图 得 来 。 

9) 非 对 称 链接 。 图 以 和 直接 非 对 称 相 同 的 邻接 结构 构建 。 

问题 : 聚 类 美国 的 大 城市 
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表 11-30 为 美国 49 个 大 城市 的 人 口 统计 数据 [12] 。 例 如 ， 亚 特 兰 大 市 人 口 的 67% 是 非 
洲 裔 美国 人 ，2% 是 西班牙 裔 ，19% 为 亚洲 裔 。 平 均 年 龄 为 31 岁 ， 失业 率 为 5% ， 人 均 收 入 
为 $22000。 现 在 ， 按 人 口 统计 数据 的 相似 性 将 49 个 城市 聚 类 为 4 个 簇 。 

步骤 1: AEF EE, TE MS Excel 中 输入 该 文本 ， 不 带 列 名 (人 口 统计 数据 ) 和 行 名 
(城市 ) 。 将 该 文件 命名 为 america。 在 存放 文件 时 ， 从 “save as ”对话 框 中 选择 Formatted Text 
(Space delimited) "。 系 统 将 显示 某 种 警告 ， 只 需要 确认 。 

现在 ， 文 件 类 型 将 为 America. prmm。 将 该 文件 重新 命名 为 america. mat。 可 以 打开 (包含 
该 文件 的 ) 文 件 夹 ， 右 击 该 文件 ， 选 择 重 新 命名 选项 来 完成 重 命 名 工作 。 在 控制 台 状 态 ， 使 
用 ren -datal. prn datal. mat 命令 (Windows 下 ) 或 mv datal. prn datal. mat 命令 (Linux 下 )。 

然后 ， 在 一 个 独立 的 文本 文件 中 逐 行 输入 城市 名 ， 并 将 该 文件 命名 为 america. mat. rlabel。 

接着 ， 创 建 另 一 个 名 为 america. mat. clabel 的 文本 文件 ， 逐 行 输入 列 字 段 。 

后 续 ， 生 成 另 一 个 文件 包含 一 行 行 的 列 。 


表 11-30 美国 49 个 大 城市 的 人 口 统计 数据 


A ee a ee eh 
bay 25 1A be ae 3 35 2 32 5 18 
亚特兰大 67 2 1 31 5 22 
奥斯汀 i2. 23 3 29 wher 19 
巴尔 的 摩 59 1 l 33 11 22 
波士顿 26 11 5 30 5 oN! 
夏 洛 特 32 I 2 32 3 20 
芝加哥 39 20 4 31 9 24 
辛辛那提 38 1 1 31 8 21 
克 里 夫 兰 47 5 1 32 13 22 
哥伦布 23 1 2 29 3 13 
达拉斯 30 21 2 30 9 22 © 
丹佛 13 23 2 34 7 i 23 
底特律 76 3 | 31 9 21 
IRIRI 3 69 1 29 1 13 
TR GR 22 20 2 30 9 20 
弗 雷 斯 诺 9 30 13 28 13 16 
火 奴 鲁 重 1 5 71 37 5 24 
休斯顿 28 28 4 30 7 22 
印第安 纳 波 利 斯 22 1 1 = a E 5 21 
AS Fe DHE AS 25 3 2 32 7 19 
堪萨斯 城 30 4 I 33 6 21 
拉 斯 维 加 斯 11 13 4 33 5 20 
长 滩 14 24 14 30 8 21 
洛杉矶 14 40 10 31 11 21 
AEW 55 1 1 32 9 Ce EO 
迈阿密 27 63 1 36 12 17 
密尔沃基 31 6 2 30 5 22 
明 尼 阿 波 利 斯 13 2 4 32 5 23 
纳什 维尔 23 1 1 33 3 24 
新 奥 尔 展 62 4 2 32 7 18 
纽约 29 24 7 34 11 27 


奥克兰 44 14 15 33 10 24 


0 
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( 续 ) 
城市 非洲 裔 西班牙 裔 WD et 平均 年 龄 值 失业 率 人 均 收入 
俄 克 拉 何 马 城 16 5 2 32 6 17 
奥马 哈 13 3 l 32 5 20 
费城 40 6 Ve 33 9 23 
风 凰 城 5 20 2 31 4 19 
匹 效 堡 26 | 2 35 7 21 
波 特 兰 8 3 5 35 7 20 
院 克 拉 门 托 15 16 15 32 8 20 
圣路易斯 48 1 | 33 8 23 
圣安东尼奥 7 56 | 30 5 17 
圣地 亚 哥 9 21 12 31 8 20 
=% 11 14 29 36 6 31 
圣何塞 5 27 20 30 8 26 
西雅图 10 4 12 35 5 28 
FERRE 20 4 a 32 6 19 
图 森 4 29 2 31 3 19 
塔 尔 萨 14 3 l | 33 4 20 
弗吉尼亚 海滩 14 3 4 29 6 18 
TT A 0 E a: 


步骤 2: 创建 一 个 工程 。 在 命令 行 上 输入 gcluto( 如 果 是 Linux) 或 运行 gcluto. exe( 如 果 在 
Window 环境 下 ) 。 

这 时 会 出 现 一 个 空 窗口 。 通 过 点 击 文件 以 及 新 工程 选项 创建 一 个 工程 。 将 工程 命名 为 
America。 现 在 可 以 看 到 America 以 工程 图 标 显 示 。 

步骤 3: 导入 数据 。 现 在 右 击 America 并 选择 导入 数据 。 系 统 会 弹出 一 个 对 话 框 。 给 定 
标号 名 为 America- data。 然 后 ， 选 择 和 矩阵 文件 并 使 用 浏览 器 定位 到 步骤 1 中 创建 的 ameri- 
ca. mat 文件 。 由 于 已 经 创建 了 america. mat. rlabel 和 america. mat. clabel 文件 ， 因 此 这 些 特征 
值 也 会 关联 显示 。 但 是 ， 这 些 文件 必须 和 数据 文件 在 同一 一 个 路 径 中 。 如 果 正 确 执行 ， 可 以 看 
到 文件 所 列 的 数据 值 。 

步骤 4: 聚 类 数据 。 右 击 America- data 并 选择 Cluster 选项 ， 可 以 看 到 一 个 聚 类 对 话 框 。 
选择 聚 类 方法 (cluster method ) 为 凝聚 法 ( Agglomerative) 。 给 定 聚 类 个 数 (number of cluster) 为 
4， 选 定 相 似 性 函数 ( similarity function) 为 余弦 (cosine) 。 选 定 条 件 函 数 为 UPGMA, 选 定 行 模 
型 (row model) 为 空 ， 列 裁剪 (column prune) 为 1.0， 保留 试验 次 数 (number of trials) 和 迭代 次 
数 ( number of iteration) 为 10 。 这 样 可 以 给 出 答案 。 

DRS: RACAL, BLEUE LE AE (solution) 并 右 击 选择 矩阵 视图 。 给 定 特 征 数 为 
18， 选 择 构 建行 树 选项 。 点 击 确定 (ok) 即 可 得 到 矩阵 视图 。 

在 图 11-96 F, 通过 点 击 左 边 的 小 方 框 可 以 查看 属于 各 个 簇 的 城市 。 继 续 点 击 直到 仅 有 
四 个 方 框 为 止 (从 内 部 的 方 框 向 外 部 的 方 框 点 击 ， 以 便 看 到 实际 的 簇 合 并 过 程 ) 。 

DRO: 产生 曲面 视图 。 现 在 选择 解答 并 右 击 选择 曲面 可 视 化 来 得 到 曲面 视图 。 

从 图 11-97 TUERO 只 有 一 个 元 素 ， 并 且 深 蓝 色 表示 特征 间 的 内 部 偏差 很 高 。 簇 2 
顶部 的 深 红色 表示 特征 间 的 内 部 偏差 很 低 ， 并 且 簇 2 的 宽广 的 扩展 度 表 示 大 量 元 素 ( 城 市 ) 
落 于 其 类 别 中 。 对 其 他 复 而 言 ， 也 可 以 得 到 相似 的 结论 。 
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图 11-97 曲面 可 视 化 输出 





11. 11. 3 ”使 用 GCLUTO 进行 文本 挖掘 


我 们 考虑 使 用 文本 文件 textdata. txt 中 的 数据 ( 见 图 11-98 ) 。 

现在 ,使 用 doc2mat 工具 将 这 一 文本 文件 转化 为 矩阵 文件 。 从 网 站 下 载 这 个 工具 并 在 命 
今 行 转 到 该 目录 ， 并 在 命令 提示 符 下 输入 > doc2mat < textfile name > < matrix filename > 。 

例如 ， 可 以 在 命令 行 输入 > doc2mat textdata. txt textdata. mat 将 文本 数据 文件 转化 为 矩阵 
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文件 。 


texidata ~ Kate 


Command Pattern is ome of the behavioral patterns. This pattern is a widely used 
one. Languages like Java provide various controls like menu items,text items, 
gbuttons, checkboxes etc to build a user- friendly interface When a user selects 
gone of these controls , the corresponding object's associated listener in the 
program listens to it and traps the control to execute the corresponding 
gaction. For e.g., if you have used a button, the actionlistener attached to the 
button will be listening to the button and whenever you click om the button, the 
listener will call the actionPerformed event, which will have the code for 
execution. 





R| 11-988 文本 文件 textdata. txt 


textdata. mat SPFAYSR—77 249 TÍT J EEAS EE A RG E E 
的 格式 。textdata. mat. clabel TERS SRNR iH, Re I: 基于 这 些 
单词 进行 聚 类 。textdata. mat. clabel 文件 表示 的 特征 由 数字 1，2，… 表 示 。 pi 由 1 表示 ， 
pattern 由 2 表示 ， 等 等 。 下 面 说 明 如 何 产生 . mat 文件 。 从 文件 中 取 第 一 行 ， 

“Command pattern is one of the behavioural patterns. This pattern is widely atl sl 

MÆ, doc2mat 工具 从 中 识别 出 4 个 关键 词 ， 即 wide, pattern, behaviour 和 command, 
pattern 出 现 了 三 次 ， 而 其 他 关键 字 各 出 现 了 一 次 

站 此 ， 生 天生 了 的 第 一 和 可 以 表示 为 

ick SO 38 Cn Be 
类 似 地 ， 可 以 对 其 他 行进 和 表示 ( 见 图 11- 99) « 


mat eclabel - Kate 


Sm 


PO et PR re be od te 


& po © BG I me io 
We BIAS PE BD ht be Pe 





a) textdata.mat b) textdata.mat.clabel 


图 11-99 ,文本 文件 


一 旦 生成 mat 文件 之 后 ， 打开 GCLUTO 并 按照 以 前 的 步骤 生成 聚 类 。 这 里 需 
变 ， 即 对 一 个 新 的 选项 (也 就 是 列 模型 ) 进行 设置 ， 其 值 为 词 频 的 倒数 。 给 定 徐 的 个 数 后 点 
击 聚 类 对 话 框 中 的 聚 类 按钮 ， 就 会 显示 结果 (对 这 个 例子 而 言 ， 复 的 个 数 为 4) 。 
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最 后 的 结果 应 该 如 图 11-100 所 示 。 


Textproject 


$ Neeresi Nieghbers: 4 
mountain yisualizeti. #¥ viata: 10 


011872 
od olden po 
0.014813 





FA 11-100 输出 格式 


从 输出 可 以 推断 ， 对 复 0 而 言 ，button REEMA P AMER A 42. 86% 的 平均 相 
似 性 ， 并 且 和 该 复 中 其 他 特征 具有 .19.15% HARE. BAT WSIS) HA, FE TR 
类 进行 分 析 。 如 果 对 “itme” 单 词 进行 查询 ,该 词 被 分 类 到 簇 2 BEE A 19.46% , 类 似 地 ， 
对 button 单词 查询 ， 其 被 分 类 到 簇 0 的 概率 为 42. 86% 。 

即使 GCLUTO eft TRF MARA — LEED, FOXY 最 终结 果 并 没有 提供 足够 的 信息 。 
也 就 是 说 ， 用 户 必须 对 这 些 单 词 的 结果 进行 解释 。 而 且 ， 对 聚 类 类 似 于 新 闻 组 (newsgroup) 
的 数据 集 ， 使 用 含有 Rainbow 程序 的 工具 包 Bow 是 非常 合适 的 。 


习题 


1. Gt 6 HES REAR C=(A, B, A, B; A, A), D=(B, B, A, B, B, A), OR: 
1 ) 样 本 间 相 似 性 的 简单 匹配 系数 (SMC) 。 | 


2) Jaccard 系数 。 
3) Rao 系数 。 ” 
2. 给 定 一 个 5 维 分 类 样本 集合 
A QL 30 
Pps L010 
C=00T19 
D-#O-1+-0 4-0 
Bai 0.4 01 
Fe a0 ri O04 


1) 应 用 凝聚 层次 聚 类 并 使 用 
基于 Rao 系数 的 单 链接 相似 度 度 量 。 





U 


n 


ws 


ON 


N 
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@) 基 于 简单 匹配 系数 SMC 的 完全 链接 相似 度 度量 。 
2) 给 出 上 题 中 问题 由 和 @) 答 案 的 树 状 图 。 


. 面 出 树 状 图 来 显示 7 种 蛋白 质 之 间 的 相似 度 (距离 相似 度 ) ”使 用 完全 链接 方法 


1EQR 1477 LADJ LEFW LASZ 1B8A 1BBW 


1 EQR 0 0. 21 0. 23 0. 55 0. 28 0. 31 0. 31 
1ATI 0. 21 0 0. 25 0. 24 0. 24 0. 18 0. 21 
1ADJ 0. 23 0. 25 0 0. 24 0. 24 0. 21 0. 23 
LEFW 0. 55 0. 24 0. 24 0 0. 34 0. 36 0.3 
1LASZ 0. 28 0. 24 0. 24 0. 34 0 0. 41 0. 27 
1B8A 0. 31 0. 18 0. 21 0. 36 0. 41 0 0. 28 


1BBW 0. 31 0. 21 0. 23 0. 3 0. 27 0. 27 


; : 0 
— ele ieee E SU 


使 用 下 表 给 出 的 相似 性 矩阵 进行 单 链 接 以 及 完全 链接 层次 聚 类 。 使 用 树 状 图 显示 结果 。 
在 树 状 图 中 展示 节点 合并 的 顺序 。 


相似 性 矩阵 
Py P2 P3 P4 Ps 
0 
Pa 0. 1 | 0. 64 0. 47 0. 98 
Pa 0. 41 0. 64 1 0. 44 0. 85 
Ps Qu53 0. 47 0. 44 ] 0. 76 
Ps 0. 35 0. 98 0. 85 0. 76 ] 


五 个 人 在 食物 (X,) 和 衣服 (X,) 上 的 每 日 支出 额 见 下 表 : 


(数值 是 假想 的 ， 并 非 实 际 数值 )。 使 用 单 链接 、 完 全 链接 以 及 平均 链接 方法 对 上 述 数 据 
聚 拓 并 比较 其 树 状 图 。 使 用 欧式 距离 作为 距离 度量 。 


. 下 表 给 出 了 两 个 变量 上 的 六 个 观测 样本 : 





1 ) 以 散 点 图 绘制 观测 样本 。 判 断 有 多 少 分 组 ， 以 及 每 个 分 组 有 多 个 成 员 。 

2) 应 用 最 近邻 方法 并 以 欧式 距离 作为 相 异 性 度量 。 使 用 树 状 图 得 到 分 组 个 数 及 其 成 员 。 
3) 和 问题 2 相同 ， 但 使 用 最 远 邻 方法 (完全 链接 方法 ) 。 

4) 和 问题 2 相同 ， 但 使 用 平均 链接 方法 。 

5 ) 使 用 -均值 方法 ， 假 定 观测 点 分 为 两 组 ， 其 中 一 组 包括 File, 


. 下 表 给 出 了 两 个 变量 的 六 个 观测 样本 : 
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1) 以 散 点 图 绘制 观测 样本 。 判 断 有 多 少 分 组 ; 以 及 每 个 分 组 有 多 少 个 成 员 。 

“2) 应 用 最 近邻 方法 并 以 欧式 距离 作为 相 异 性 度量 。 使 用 树 状 图 得 到 分 组 个 数 及 其 成 员 。 
3) 和 问题 2 相同 ， 但 使 用 最 远 邻 方法 (完全 链接 方法 ) 。 

4) 和 问题 2 相同 ， 但 使 用 平均 链接 方法 。 

5) 使 用 k 均值 方法 ， 假 定 观 测 点 分 为 两 组 ， 其 中 一 组 包括 c Me, 

:一 个 高 保 真 音 啊 爱好 者 杂志 对 19 个 品牌 的 中 型 扩 音 器 进行 了 测试 。 这 些 扩 音 器 的 测试 结 
采 及 其 价格 列 于 下 表 : 


品牌 价格 准确 度 贝斯 功率 
4 600 91 5 38 
B 598 92 4 18 
C 550 90 4 36 
D 500 90 4 29 
E 630 90 4 15 
F 580 87 5 5 
© 460 87 5 15 
H 600 88 4 29 
I 590 88 3 15 
J 599 89 3 23 
K 598 85 2 23 
L 618 84 2 12 
M 600 88 3 46 
N 600 82 3 29 
0 600 85 2 36 
P 500 83 2 45 
Q 539 80 1 23 
R 569 86 1 21 
S 680 79 2 36 


“价格 "是 制造 商 的 建议 零售 价 (单位 为 美元 )5 “准确 度 " 从 0 ~100, 是 扩 音 器 再 现 乐 谱 中 
的 每 个 频率 的 能 力 。“ 贝 斯 "从 1 ~5， 是 扩 音 器 处 理 大 贝斯 音符 的 程度 。“ 功 率 ” 是 扩 音 器 
需要 的 绸 现 中 等 音量 音乐 的 每 频道 最 小 扩 音 功率 (单位 为 瓦特 ) 。 该 杂志 需要 将 这 些 品 
进行 同类 和 异类 分 组 。 你 对 该 杂志 有 何 建议 ? 

. 下 表 汇 总 了 从 1982 年 到 1993 年 间 Bradford 二 月 份 的 气象 数据 。 变 量 本 身 非常 直观 。 这 些 
数据 是 否 存 在 明显 的 聚 类 ， 即 哪些 年 份 的 二 月 份 天 气 比较 相似 ? 


土壤 温度 月 降雨 量 日 最 大 


Ge Ae ER 
1982 4.2 15.3 -5.3 4 23 6 0 
1983 1 a8 -5.3 3 34 11 8 
1984 a” 11.4 -5.1 £ N 65 17 0 
1985 1.6 10. 2 -6 29 7 2 5 
1986 -1.1 Za Í -9 1.5 22 5 24 
1987 3.3 13.4 -7.3 wt 46 15 2 
1988 4.5 13 -2.19 sgi 89 22 4 
1989 D4 13,5 -2.7 eed 92 16 0 
1990 6. 6 14,9 -0.6 Des 131 29 0 
1991 15 13.8 -7.2 2.6 80 18 14 
1992 9.3 {2.1} -3.6 4.5 46 9 2 
1993 4.7 12 -3 S. 14 6 0 
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10. 下 面 的 数据 是 Rataj 和 Schindler(1991, Binary, 159 -164) 描 述 的 数据 集 的 一 部 分 。 数 据 


11: 


中 包含 六 个 物种 ， 大 多 数 ( 物 种 ) 有 超过 1 个 种 类 和 16 个 表 型 特征 的 数据 (0 = 缺失 ， 
1 = 存在 ) 。 这 些 物种 为 : 

è ecoli( 大 肠 杆 菌 ) 

© styphi( 沙门 氏 菌 伤寒 菌 ) 

è kpneu Klebsiella pneumoniae 

© pvul( 变形 杆菌 ) 

® pmor P. morganii 


è smar Serratia marcescens 





Species H2S MAN LYS IND ORN CIT URE ONP VPT INO., UP PHE MAL ADO ARA RHA 


ecolil 0 1 1 ] 0 0 0 ] 0 0 0 0 0 0 l 1 
ecoli2 0 1 0 1 l 0 0 l 0 0 0 0 0 0 0 
ecoli3 1 l 0 1 l 0 0 1 0 0 0 0 0 0 1 1 
styphil 0 1 l 0 0 0 0 0 0 0 0 0 0 0 1 0 
styphi2 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 
styphi3 1 l 1 0 0 0 0 0 0 0 0 0 0 0 1 0 
kpneul 0 l 1 1 0 1 1 l l 1 0 0 0 1 1 l 
kpneu2 0 ] 1 1 0 l 1 1 1 1 0 0 l 0 1 1 
kpneu3 0 l 1 l 0 1 l 1 1 l 0 0 1 l 1 l 
kpneu4 0 1 l 1 0 1 l 1 0 1 0 0 l 1 l ] 
kpneuS 0 l 1 1 0 l 0 1 1 l 0 0 1 l l 1 
pvull 1 0 0 1 0 1 1 0 0 0 0 1 0 0 0 0 
pvul2 1 0 0 1 0 0 0 0 0 0 0 l 0 0 0 0 
pvul3 1 0 0 l 0 0 l 0 0 0 0 1 0 0 0 0 
pmorl 0 0 1 l l 0 1 0 0 0 0 l 0 0 0 0 
pmor2 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 

smar 0 1 1 0 1 1 0 1 ] 0 1 0 0 0 0 0 





使 用 二 元 相似 性 度量 以 及 单 链接 方法 对 数据 进行 聚 类 。 并 画 出 树 状 图 。 
下 面 是 一 个 简单 的 数据 集 ， 要 求 给 出 三 种 不 同 的 距离 矩阵 。 然 后 使 用 单 链接 聚 类 方法 构 
建树 状 图 。 





. 一 个 消费 者 机 构 每 年 对 其 会 员 进行 调查 。 去 年 的 调查 问题 包括 请 其 会 员 评 价 42 个 全 国 


连锁 酒店 的 卫生 状况 、 床 位 舒适 度 等 情况 。hotels. dat 文件 (在 随 书 光盘 中 CHAPTER11 
文件 夹 中 给 出 ) 包 含 了 数 千 个 回复 的 汇总 ， 部 分 数据 见 下 表 : 





酒店 编号 价格 卫生 状况 房间 大 小 ”床位 舒适 度 ”气氛 控制 噪声 设施 服务 
1 36 3 3 3 3 3 3 3 
2 36 1 2 1 1 1 1 1 


3 37 2 2 2 1 1 2 3 
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酒店 编号 价格 卫生 状况 房间 大 小 ”床位 舒适 度 ”气氛 控制 噪声 设施 服务 


42 129 + 3 4 4 4 4 4 


“价格 ”是 会 员 文 付 的 平均 价格 ， 四 侈 五 人 按 美元 计 。 其 他 各 列 是 会 员 对 每 个 特征 的 平均 
评价 ， 取 值 从 1( 差 ) ~5( 最 好 ) ， 结 果 四 舍 五 人 成 整数 。 将 这 42 个 酒店 按 质量 进行 分 组 
(如 差 、 可 接受 、 好 、 很 好 、 最 好 ) 。 质 量 和 价格 之 间 是 否 有 关系 ? 

13. 使 用 不 同 的 链接 规则 对 下 表 数 据 进行 聚 类 ， 画 出 树 状 图 。 





水 AK 脂 乳糖 灰分 

美洲 野牛 86. 9 4.8 Lg ST 0.9 
水 牛 82. 1 5.9 7.9 4.7 0. 78 
骆驼 87.7 3.5 3.4 4.8 0.71 
猫 81.6 10. 1 6.3 4.4 0.75 
ja 65.9 10. 4 19.7 2.6 1.4 
žij 76.3 9.3 9.5 3 E2 
海豚 44.9 10. 6 34.9 0.9 0. 53 
up 90. 3 i pili L4 6.2 0.4 
kA 70. 1 3.6 17. 6 5.6 0. 63 
狐狸 81.6 6.6 5.9 4.9 0. 93 
豚鼠 81.9 7.4 12 y 0. 85 
河马 90. 4 0. 6 4.5 4.4 0. 1 
马 90. 1 2.6 1 6.9 0. 35 
FUN IS SE 86. 5 3.9 3.9 5.6 0.8 
猴子 88. 4 2.2 23.1 6.4 0. 18 
TRF 90 2 1.8 S45 0. 47 
猩猩 88. 5 1.4 a5 6 0. 24 
猪 82.8 74 5.1 307 1.1 
兔子 71.3 12.3 13.1 1.9 1a 
老鼠 75 9.2 12.6 a 1.4 
驯鹿 64. 8 10.7 20. 3 2.4 1.4 
EH 46. 4 9.7 42 0 0. 85 
绵羊 82 5.6 6.4 4.7 0. 91 
鲸鱼 64. 8 11. 1 or 2 1. 6 CF 
斑马 86. 2 3 4.8 5.3 0.7 


14. 使 用 EXCEL 生成 一 个 数据 文件 : FT RL = 400, ,特征 数 =20， 数 据 在 10 ~20 之 内 。 生 成 
一 个 包含 特征 值 ( 如 A，B，C，D，…) 的 列 标识 文件 。 使 用 直接 聚 类 方法 将 数据 分 为 5 
TTR o 

15. AE “i it PC AP SH EA PS ORG GG PA 10 “SHE LS PP ET eK IF AT 
结果 。 

16. 生成 一 个 文本 文件 ， 它 包括 以 下 文本 : 

“Good morning! I am trying to find out what is the use of GCLUTO and how it is done. 
GCLUTO is one of the graphical clustering software used to cluster a given data. It has a nice 
graphical output wherein one can visualize the output in a graphical format. Just check this 


out. GCLUTO, GCLUTO, GCLUTO is one of the best clustering toolkits available in this 
world. Play and learn with GCLUTO.” 


使 用 doc2mat 工具 将 该 文本 文件 转化 为 矩阵 文件 。 使 用 凝聚 方法 将 数据 分 为 10 个 艇 并 分 
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Dt FF ie] 22 KAS AE Ba IB — AIR ( 2 HH AE EEL) 。 
1 ) morn 

2 ) cluster 

3 ) output 

4)GCLUTO 


WEKA 练习 


概念 聚 类 

使 用 weather. arff 数据 集 并 选择 Cobweb 聚 类 算法 。 有 两 个 重要 选项 ，Cutoff( 默认 值 = 
0. 002) FI Acuity( 默 认 值 =1.0)。 首 先 使 用 默认 值 。 像 使 用 简单 k 均值 一 样 ， 对 聚 类 模式 使 
用 相同 的 设置 初始 化 Cobweb 算法 。 输 出 面板 给 出 了 合并 和 分 裂 的 节点 个 数 、 簇 的 个 数 以 及 
形成 的 分 层 聚 类 结构 。 对 分 层 聚 类 结构 进行 评价 。 

e 尝试 提供 Cutoff 参数 值 ， 以 抑制 节点 的 分 隔 和 簇 的 个 数 。 

© 对 这 个 数据 集 ， 最 好 的 Cutoff 值 是 什么 ”以 树 结构 画 出 分 层 聚 类 结构 。 

o 使 用 可 视 化 工具 对 簇 和 簇 的 实例 ( 节点) 进行 分 析 。 

o 是 人 否 可 以 检测 到 明显 的 异常 ， 如 相似 的 训练 样本 被 聚 类 到 树 的 完全 不 同 的 部 分 。 

对 于 数值 属性 ， 其 分 组 计算 是 基于 均值 和 方差 的 ( 见 Witten & Frank, 2000, 217 ~ 218 
页 ) 。 当 单个 实例 被 指派 到 一 个 得 时 ， 属 性 值 上 附加 了 一 个 最 小 方差 以 避免 零 方差 。 这 个 最 
小 方差 是 由 Acuity 参数 设 定 的 。 讨 论 其 对 具有 数值 属性 的 数据 集 的 影响 。 


COBWEB 练习 


© 从 随 书 光盘 中 打开 iris. arff 文件 并 保存 到 你 的 计算 机 上 。 

。 对 每 个 类 ( US BR, BABA, HAE WSK) 保留 5 个 训练 样本 ， 删 除 其 他 
的 数据 ,产生 一 个 有 15 个 数据 的 训练 集 。 命 名 为 iris-cobwebl. arff 并 保存 。 

© 在 该 数据 集 上 应 用 COBWEB( 使 用 默认 值 ，Cutoff =0.002，Acuity =1)。 你 会 再 次 发 
现形 成 了 太 多 的 簇 。 \ 

e 尝试 减 小 Acuity 的 值 以 在 该 数据 集 上 得 到 更 低 的 误差 率 。 

© 使 用 可 视 化 工具 对 聚 类 及 其 实例 进行 分 析 。 

Cobweb 的 一 个 主要 问题 是 对 训练 样本 数据 的 顺序 敏感 。 使 用 iris- cobwebl. arff 生成 一 个 
iris- cobweb2. arff 文件 ， 改 变 文件 中 萝 尾 植物 的 三 个 变种 。 


@DATA 

5.1, 3.5, 1.4, 0.2, Iris-setosa 
7.0, 3.2, 4.7, 1.4, Iris-versicolor 
6.3, 3.3, 6.0, 2.5, Iris-virginica 
4.9, 3.0, 1.4, 0.2, Iris-setosa 
6.4, 3.2, 4.5, 1.5, Iris-versicolor 
5.8, 2.7, 5.1, 1.9, Iris-virginica 


© H Gobweb 于 Iris-cobweb2. arff 并 以 不 同 的 Acuity 值 进行 实验 。 哪 一 个 Acuity 值 产生 
最 小 的 误差 率 ? 通 常 该 误差 率 应 小 于 由 Iris-cobwebl. arff 得 到 的 误差 率 。 

© 比较 使 用 Iris- cobwebl - arff 和 Fris-cobweb2-arff 产生 的 簇 的 个 数 。 

© 使 用 可 视 化 工具 显示 簇 及 分 配给 各 个 簇 的 实例 。 
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第 12 章 ， 多 维 数据 可 视 化 


12:4 oh 


AY 4 ee PE Ps Be IG, ALA A SE Eb BR] a TK, AE 
可 以 在 瞬间 从 复杂 的 可 视 场 景 中 提取 出 重要 的 特征 。 类 类 具有 很 好 的 可 视 化 信息 处 理 技巧 ， 
可 以 用 能 被 人 脑 快速 处 理 的 形式 来 表示 出 复杂 的 信息 。 

可 视 化 可 应 用 于 数据 挖掘 过 程 中 的 若干 情形 。 它 可 以 作为 数据 选择 和 准备 工具 ， 向 领域 
专家 提供 从 何 处 挖掘 数据 的 线索 。 它 也 可 以 用 终端 用 户 ( 如 领域 专家 ) 更 易 理 解 的 方式 展示 
数据 挖 所 结果。 最 近 ， 它 也 直接 用 于 通过 交互 式 探索 数据 分 析 进 行 数据 挖掘 。 

多 维 可 视 化 技巧 几乎 在 每 个 学 科 都 有 有 用 的 应 用 ， 因 为 大 多 数学 科 都 采用 简单 的 模型 来 
更 好 地 显示 复杂 系统 的 系统 行为 。 使 用 现代 技术 ,计算 机 可 用 于 使 更 复杂 的 模型 可 视 化 ， 并 
且 对 更 复杂 的 问题 提供 简化 的 多 维 解决 方案 。 

“可 视 化 ”并非 新 技术 。 例如， 法 国 发 现 的 洞穴 壁画 已 经 有 两 万 年 的 历史 。 中 国人 在 12 
世纪 就 创造 了 人 类 已 知 的 最 早 的 地 图 。 但 是 :直到 19 世纪 才 出 现 最 早 的 多 维 (信息 ) 表 示 。 
John Snow 博士 和 Charles Joseph Minard 给 出 了 两 个 最 好 的 例子 。1854 Æ, Snow 博士 标 绘 出 
了 伦敦 的 霍乱 死亡 者 。 他 用 点 标 出 死亡 者 的 地 点 并 用 又 标 出 水 泵 的 位 置 。 他 发 现 霍 乱 几乎 全 
部 发 生 在 居住 在 百 老 大 街 ( Broad Street) 水 到 附近 (或 饮用 该 水 条 取出 的 水 ) 的 人 群 中 。 基 于 
这 一 观察 结果 ， 他 发 现 需 要 移 走 水 泵 ， 进 而 终止 霍乱 [1]。 

Charles Joseph Minard 是 一 位 法 国道 路 和 桥梁 工程 师 及 监察 员 ， 他 在 150 年 前 创造 了 关 
于 拿破仑 征 俄 战争 ”的 最 令 大 印象 深刻 的 多 维 图 形 表示 5 有 时 候 这 称 之 为 “历史 上 上 最 好 的 统 
WAE”, 以 及 “挑战 历史 学 家 之 笔 ” 的 工作 。Minard 绘制 了 一 不 连续 图 ， 描 终了 拿破仑 大 军 
在 灾难 性 的 1812 年 征 俄 战役 中 的 悲惨 命运 。 使 用 笔墨 ，Minard 在 二 维 纸张 上 捕 提 了 不 少 于 
六 维 的 描述 性 数据 ( 见 图 12-1)。 

Edward Tufte[ 1 ] 是 一 位 在 理解 数据 的 艺术 和 科学 领域 耕耘 30 余 载 的 信息 设计 者 ， 他 极 
有 具 说 服 力 地 描绘 Minard 的 图 表 。 

图 像 中 间 最 粗 的 线条 表示 拿破仑 在 1812 年 6 月 从 波兰 -俄国 边界 近 尼 尔 曼 河和 人 侵 俄国 
时 的 军队 力量 ， 达 422 000 人 之 多 。 随 着 军队 的 进入 ， 线 条 的 粗 度 因 军力 在 进军 莫斯科 的 途 
中 随 着 人 员 损 失 而 不 断 变 细 。 在 军队 抵达 莫斯科 时 (图 中 的 最 右边 ) 减少 到 了 100 000 A, R 
有 最 初 的 1/4。 下 面 的 黑 线 代表 了 拿破仑 军队 的 撤退 以 及 俄国 严寒 的 灾难 性 效果 。 撤 退 线条 
-和 图 像 下 面 的 日 期 以 及 温度 相 联 系 。 等 军队 返回 到 波兰 时 ， 由 于 严寒 寻 致 军队 减少 到 10 000 
人 。 除 了 主力 军队 ，Minard 还 描绘 了 辅助 苗 队 保护 主力 军队 两 对 的 行动 。 

Minard 的 图 表 是 数据 表示 脱离 二 维 限制 的 易 盛 之 作 。 他 传递 了 关于 世界 的 一 个 核心 现 
实 : 事物 是 多 维 的 。Minard 捕捉 并 绘制 了 6 个 变量 : 军力 (1); 军队 在 二 维 平 面 上 的 位 置 
(2,3); 军队 移动 的 方向 (4) ; 从 莫斯科 撤退 过 程 中 各 天 的 温度 (5，6 ) 。 


O EXE huma folly， 实 际 是 指 拿破仑 征 俄 战争 。 一 一 译 者 注 
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12-1 © Minard 的 图 表 


现在 ， 计 算 机 科学 为 我 们 提供 了 以 可 视 化 方式 表示 信息 的 革命 性 工具 。 其 威力 通过 今天 
视频 游戏 的 巨大 吸引 力 表露 无 遗 。 虽 然 经 常 以 混乱 和 毁 灭 示人 人， 视频 游 戏 中 展现 的 3D 影像 
的 惊人 诱惑 力 将 视频 游戏 引领 到 一 个 新 的 视觉 世界 。 它 还 具有 从 多 维 显 示 数 据 ， 呈 现 信息 的 
能 力 。 

究竟 什么 是 可 视 化 ? 新 韦伯 英语 词典 [1989, P. 1100] 对 可 视 化 的 定义 是 “一 个 可 视 或 被 
可 视 的 过 程 ; 一 个 心理 图 像 ”。 而 什么 又 是 “被 可 视 ”? 蓝 登 书屋 英语 词典 [1987，P. 2127 ] 对 
可 视 化 的 定义 是 “回忆 或 形成 一 个 心理 映像 或 图 片 ; 使 可 视 或 可 见 ; 对 事物 形成 一 个 心理 映 
像 ; 对 思想 或 想象 进行 感知 ”"。 这 些 定义 暗示 着 可 视 化 是 某 些 现象 的 一 个 图 像 。“ 计 算 机 图 
像 和 虚拟 现实 词典 "中 一 个 更 为 恰当 的 定义 是 ， 可 视 化 是 “将 数据 表示 为 视觉 图 像 的 过 程 ” 
[2] 。 所 基于 的 数据 可 能 代表 具体 的 对 象 ( 如 房子 或 汽车 )， 或 代表 抽象 的 对 象 ( 如 利润 、 销 
售 或 成 本 )。 如 有 果 数 据 是 抽象 的 ， 那 么 必须 对 其 创建 直观 模拟 。 典 型 直观 模拟 是 饼 图 或 曲 
线 图 。 

可 视 化 的 目标 并 非 蔡 代 具 有 坚实 基础 的 量化 分 析 ， 而 是 要 加 强 量化 分 析 。 可 视 化 可 以 : 

© 利用 人 类 的 视觉 系统 从 数据 中 提取 信息 。 

© 对 复杂 数据 集 提供 概览 。 

© 标识 数据 中 的 结构 、 模 式 、 趋 势 、 异 常 和 联系 。 

© 协助 标识 出 “ 感 兴趣 ”的 区 域 。 

换 句 话说 ， 可 视 化 允许 决策 者 使 用 他 们 天 生 的 空间 /时 间 能 力 ， 决定 在 哪些 地 方 继续 探 
索 。 这 意味 着 ， 如 果 可 视 化 被 恰当 利用 ， 可 使 决策 者 从 数据 中 发 现 信息 。 

可 视 化 技术 分 为 三 大 类 : 科学 可 视 化 、 数 据 / 信 息 可 视 化 和 虚拟 现实 。 

o 科学 可 视 化 ， 顾 名 思 义 ， 处 理科 学 或 工程 计算 或 实验 中 产生 的 数据 到 图 像 的 转换 ， 如 

滑 过 机 种 的 气流 。 
© 数据 /信息 可 视 化 用 于 将 非 空 间或 行为 数据 转化 为 可 视图 像 ， 用 以 表示 问题 空间 的 一 
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个 模拟 或 象征 ， 如 投资 档案 分 析 。 

© 在 商业 信息 可 视 化 领域 ， 虚 拟 现实 (VR) 只 是 一 个 三 维 的 计算 机 生成 的 模拟 系统 ， 用 
来 对 用 户 行为 进行 实时 展现 。VR 也 称 为 人 工 现实 以 及 虚拟 环境 [3] 。 

在 下 一 方 ， 我 们 讨论 信息 可 视 化 设计 者 发 明 的 二 个 可 视 化 表示 的 例子 。 


12.2 多 维 可 视 化 的 图 表 表 示 


12.2.1 kiviat 图 


kiviat 图 (参见 图 12-2 和 图 12-3) 已 在 计算 机 性 能 评估 领域 应 用 多 年 [ Kolence and Kiviat, 
1973], kiviat 图 可 以 描述 多 元 数据 间 的 关系 。 每 个 度量 值 显示 其 坐标 轴 上 。 例 如 ， 如 果 有 五 
个 独立 的 变量 ，kiviat 图 将 有 五 个 不 同 的 坐标 轴 。 


3 





Od 








图 12-3 ”表示 不 同 对 象 的 kiviat 图 集合 
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将 对 感 兴 趣 的 实体 的 度量 值 绘制 在 相应 的 坐标 轴 上 。 然 后 连接 数据 点 。 最 后 形成 的 模式 
即 为 信息 的 可 视 化 。 为 了 比较 不 同 实体 ， 可 对 其 模式 进行 比较 。 这 类 图 也 称 为 雷达 图 、 星 状 
图 、 蜘 蛛 图 或 星云 图 。 


12.2.2 平行 坐标 系 


平行 坐标 系 (参见 图 12-4) 是 为 一 种 长 期 使 用 的 多 元 数据 可 视 化 技术 。 最 近 ， 该 方法 开 
始 应 用 于 数据 挖掘 领域 。 如 图 12-4 所 示 ， 和 Kiviat 图 一 样 ， 关 于 每 个 实体 的 度量 被 绘制 在 
其 相应 的 坐标 轴 上 。 在 这 种 方法 中 , 《表现 ) 模 式 是 线条 而 非 多 边 形 ,使 得 查找 不 同 实体 之 
间 的 相似 模式 变 得 非常 下 接 。 
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图 12-4 平行 坐标 系 


12.2.3 3D 散 点 图 


3D 散 点 图 ( 见 图 12-5 ) 是 统计 工具 包 中 常见 的 2D 散 点 图 的 扩展 。 在 这 种 方法 中 ， 可 对 

一 个 实体 的 最 多 四 种 不 同 度 量 进行 表示 ， 包 括 每 个 坐标 轴 (x、y 和 z) 以 及 颜色 。 但是， 该 方 

法 的 最 大 缺点 是 很 难 精确 确定 每 个 度量 值 的 位 置 。 大 多 数 情况 下 ， 需 要 增加 参考 数据 ， 如 对 

相应 的 坐标 值 增 加 来 自 其 真实 值 的 线条 并 增加 色 例 (colour map)。 否 则 ， 对 散 点 图 的 解释 会 
产生 问题 。 
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图 12-5 3D 散 点 图 


12.2.4 3D 曲线 图 


三 维 曲 线 图 (参见 图 12-6) 是 典型 二 维 曲线 图 的 扩展 。 它 可 表示 一 个 感 兴趣 的 实体 的 最 
多 四 种 不 同 度量 。 在 这 种 方法 中 ， 曲 线 穿越 三 维 空间 (x、y 和 z) 。 随 着 第 4 个 度量 的 变化 ， 
线条 的 颜色 随 之 变化 。 由 于 每 次 只 绘制 一 个 实体 ， 因 此 其 结果 相 较 于 3D 散 点 图 更 便于 解 
释 。 然 而 ， 和 3D 散 点 图 一 样 ， 其 表示 也 需要 增加 参考 数据 和 色 例 。 


12.2.5 体积 透视 图 


体积 透视 图 ( volume rendering)( 见 图 12-7 ) 要求 (数据 源 是 )3D 数据 集 。 该 方法 已 被 作为 
科学 可 视 化 技术 使 用 。 然 而 , Silicon Graphics 的 Becker[4] 最 近 用 其 表示 存储 于 关系 数据 集 
中 的 数据 。 在 其 工作 中 ,他 将 聚集 后 的 数据 (教育 水 平 、 职 业 和 工作 时 间 ) 绘制 在 3D 空间 
中 ， 并 为 因 变量 (收入 ) 赋 予 颜色 。 可 视 化 的 不 透明 度 基于 该 区 域 包含 的 观测 数量 。 他 还 将 
一 个 额外 变量 (年 龄 ) 赋 予 一 个 外 部 滑 块 (slider) 作为 可 视 查 询 的 基础 。 基 于 该 工作 ， 体 积 透 
视图 也 许 会 成 为 其 他 多 元 表示 的 合理 替代 。 





图 12-6 3D 曲线 图 图 12-7 体积 透视 图 
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12.2.6 房 图 


房 图 (floors and walls)( 见 图 12-8) 是 一 种 房间 象征 形式 。 在 这 种 表示 中 ,信息 被 赋 信 于 
各 种 商业 图 形 并 显示 在 房间 的 墙壁 或 地 板 上 。 这 种 表示 允许 在 相对 狭小 的 空间 表示 大 量 信 
息 ， 并 且 它 为 决策 支持 者 提供 他 们 熟悉 的 图 形 ， 如 饼 图 、 柱 状 图 、 曲 线 图 以 及 其 他 典型 的 商 
业 图 表 方法 。 这 种 表示 支持 探索 性 以 及 验证 性 决策 任务 。 在 这 类 任务 中 ,决策 制定 者 在 ( 立 
体 图 形成 的 ) 景 观 中 导航 来 发 现 新 的 假设 或 对 已 有 假设 进行 验证 。 
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12.2.7 Chernoff 脸 


1973 Æ, Herman Chernoff 引入 了 一 种 可 视 化 技术 一 -Chernoff 脸 图 ， 以 表示 多 维 数据 中 
的 趋势 。 他 的 Chernoff 脸 图 (参见 图 12-9) 是 非常 有 效 的 ， 因为 它 将 数据 和 脸 部 特征 相 联系 ， 
而 脸 部 特征 正 是 我 们 用 于 区 分 人 的 重要 特征 。 不 同 的 数据 维 被 映射 到 不 同 的 脸 部 特征 ， 如 脸 
的 宽度 、 耳 末 的 高 度 、 耳 杂 的 半径 、 嘴 的 长 度 或 曲率 、 FF HK ESSE, E 12-9 是 Chernoff 
脸 图 ( Chernoff face) 的 一 个 例子 。 它 用 脸 部 特征 来 表示 数据 值 中 的 趋势 ， 而 非 数值 未 身 - 虽 
从 这 是 一 个 明显 的 局 限 , 但 是 数据 中 的 趋势 信息 可 以 用 来 帮助 决定 哪 部 分 数据 是 有 意义 的 ， 





图 12-9 Chernoff j$ K] 


12.3- 可视化 数据 挖掘 


评 多 现代 数据 可 视 化 工具 结合 了 强大 的 可 视 化 显示 和 易于 操作 的 数据 选择 和 显示 控制 。 
这 些 功 能 允许 领域 专家 交互 式 地 探索 数据 。 这 些 功 能 是 如 此 的 高 效 ， 以 至 于 在 不 使 用 自动 数 
据 挖掘 算法 的 情况 下 ， 也 可 以 发 现 有 趣 的 数据 模式 。 这 类 数据 控 气 有 时 称 为 可 视 化 数据 挖 所 
(visual data mining), 好 的 可 视 化 数据 挖掘 工具 具有 以 下 功能 ， 

* 在 可 视 化 背景 下 的 交互 式 导 航 的 能 力 ， 允 许 在 显示 的 数据 上 进行 缩放 、 旋 转 和 扫描 。 

© 交互 式 控制 显示 数据 的 显示 格式 和 可 视 属性 的 能 力 。 

* 文 互 式 控制 显示 数据 的 粒度 的 功能 ， 人 允许 领域 专家 从 高 层 视角 观测 数据 或 下 钼 到 特定 

的 数据 集 。 这 使 得 领域 专家 可 以 分 析 所 显示 的 信息 的 总 体 ， 或 专注 于 细节 和 异 党 。 
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千 信 息 的 能 力 。 动 画 技术 顺应 了 人 类 发 现 可 视 信息 中 动作 的 能 力 。 为 此 ， 动 画 是 分 析 数 据 ， 
尤其 是 分 析 时 态 数 据 的 有 力 工 具 -。 

数据 动画 技术 的 工作 原理 通常 是 选择 准则 变量 并 用 动画 工具 来 显示 这 些 变量 的 不 同 值 的 
数据 记录 行为 。 
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WRA SVM 公式 : 完全 可 分 的 线性 分 类 器 


分 离 超 平面 由 下 式 给 出 : 
ww-y=0weR", yeR 
对 应 的 决策 函数 是 : 
f(x) =sign(w'x -y) 
为 了 建立 最 佳 超 平面 ， 我 们 对 下 面 的 优化 问题 求解 
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满足 : (w'x,-y)24+1, i=1,2, =, m, 对 于 属于 +1 类 的 样本 
(w'x,-y)<-1, j=1,2, =, m， 对 于 属于 -1 类 的 样本 (A-1) 
这 些 不 等 式 公 式 可 以 表达 为 : 
Dw 21, i=1, ,hs 
DW yet, jal, 20°, ih 


其 中 ， 对 所 有 属于 +1 类 的 数据 有 D, = + 1， 对 其 他 类 的 有 D, = - 1。 上述 两 个 不 等 式 现在 
可 以 组 合 为 一 个 不 等 式 : 


Daw žy) 21, k=1, 2, ~, m 
EA m=m,+m,, 
对 上 述 问题 求解 的 一 种 方法 是 求解 拉 格 朗 日 对 偶 问 题 : 
max[ minL(w, y, u)] (A-2) 
其 中 
w y. u) 5 lw I? - > [Du (wx, -y) -1] (A-3) 


对 于 给 定 的 w， 我 们 寻找 最 小 化 L(w,，y, wu) 的 w 和 YY 值 ， 并 代入 式 (A-3)。 为 了 取 最 
小 值 ， 我 们 有 : 


zL, y. By a0 Al L(w, y, 2) =0 
这 导致 > dy: = 0 (A-4) 
a 
w = SaDa AAS) 
将 式 (A-5) 代 入 式 (A-3) ， 我 们 得 到 


1 m 
L(w, y, u) = > Iw |? T >) u;[ D (wx; =y) =l] 
ET 


1 m 
二 giw) EE > ul Dif w'x, =y) A 1 | 
i=l 
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ev 
Il 
一 


因为 根据 式 (A-4) 有 Y uD, =0.， 于 是 


L(w, Ys u) = N 


L 
2 
a yu - +> yu ADDAI x) 
SUE, MEH PRA MIM F u 的 函数 ， 我 们 将 这 个 函数 表 不 为 : 
b (uy = X u ji sy yu u;u;D;,D;(x;'%;) 


我 们 知道 u 必须 满足 式 ( A-4) 给 定 的 条 件 。 
现在 优化 问题 归结 为 : 
‘Max L,(u) = 2 u; 一 3 ps 2 wu DD (x, x) 


满足 
> uD, = 


P 次 规划 间 题 可 得 到 us， BERTIER 决策 函数 可 由 下 式 给 出 : 


f(x) =sign(w x wy) = sign ( Dux," S d 
y 的 值 可 通过 在 边缘 上 取 一 个 u; 关 0 的 点 而 轻易 求 得 。 


线性 SVM 的 和 矩阵 形式 
pines | 
wy 2 
满足 
Dj. (w'x, y= ok 1, 254 im 
还 可 以 表达 为 : 
minimize; (w w) 
满足 D( Aw -ey ) 三 e 


其 中 e 是 1 的 冯 xl1 回 量 ， 即 
二 


LB(w, y; u) => (ww) —u'| D(Aw -ey) -e] 


zL”. y, u) =0>e"D"u =e'Du =0 


zL, y, 6) =0=w -A'Du =0 


因此 有 L (u) =-(A"Du)"A"Du -u DIAA Du -ey) -e] 


=-(u"DAA"Du) -u"DAA"Du + yu"De +u"e 


> 2 u;u;,D;,D,(x;'x;) 一 3 2, u;u;D,D;;(x;'X;) + ya u; 
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lor 7 . = 
SEL a D. | D. | 
z & dy Hil D iD; (x. "%;) D uD, (w"x,) +y F i at Qu 


(A-6) 


(ArT) 


(A-8) 


(A-9) 


( A-10) 


302 =3 Hit RA 
Ci 


注意 ， 上 述 表达 式 中 的 每 个 项 都 是 标量 ， 并 且 第 三 项 yu De 与 ye7Du 相同 。 因 为 由 式 
(A-8) 有 e Du =0， 式 (A-10) 简化 为 : 
L,(u) =u'e --u"DAA"Du 


因此 ， 对 偶 优 化 问题 为 : 


最 大 化 L (u) =u'e -3u'DAA' Du 
满足 e Du=0, u>0 
WR PRK f(x) 由 下 式 给 出 : 


f(x) =sign(w'x ~y) =sign[ (A’Du)'x -7y] =sign(u DAx =y) 
完全 可 分 的 非 线 性 分 类 器 


w 9(x) -y=0, we F( RES s 间 维 数 决 定 于 非 线 性 函数 $) ，y e R， 对 应 的 决策 函 
BUE : 
f(x) =sign[ w(x) -y] 
为 了 构建 最 佳 超 平面 ， akee 


minimize- lm | 


满足 : (Yw (rz) -y)> +1, =1，2，…，mi， 对 于 属于 +1 类 的 样本 
(w'b(x;) -y)<-1, j=1,2,…，m, ， 对 于 属于 -1 类 的 样本 (A-11) 
这 些 不 等 式 可 以 表达 为 : | 
Diw ols.) -y) 21, i=1, 2, +, m 
D,(w'o(x;) -y) 21, j=l, 2, =, n 
其 中 ， 对 所 有 属于 +1 类 的 数据 有 D, = +1， 对 其 他 类 的 有 D; = -1。 上 述 两 个 不 等 式 现 在 
可 以 组 合 为 一 个 不 等 式 : 


Di(WY læ) -y) 21, k=1, 2, ++, m 
其 中 m =m, + m,。 对 上 述 问 题 求解 的 一 种 方法 是 求解 拉 格 朗 日 对 偶 问 题 : 
max( minL(w, y, u)) (A-12) 
其 中 
L(w, y, u) => lw | =- 2, Hel Da(w bx) -y i be] (A-13) 


对 于 给 定 的 ~， 我 们 寻找 最 小 化 L(w， Y u) Hw Fl gI, 并 代 人 式 ( A- 13%; 为 了 取 最 
小 值 , RIA: 

: Stas. y, u) =0 ri eS iO 

这 寻 致 : 


> a0, =D (A-14) 
k=1 


m 


= by U, Dip ( x, ) (A-15) 


k=l 
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将 式 (A-15) 代 入 式 (A-13) ， 得 到 
L(w, y, W) = ziw E P > ul Da(w P(x:) oy) = 1) 


FEB RC Cw’ Gx) — 7) 1] 
is 
2 


t= 


Yuu D.Djl ba) OC) ] - YY uD LoC) OC) 


人 
= 
= 
= 
I 
N | 
M IM: i 
Sa ~ 


= Du DuwDiDil G(s) C) 
现在 拉 格 归 日 函数 是 仅仅 关于 MIRA, ARITA RICAN 


Lote). = yu = +h X, uu DDL ds) “b(%;) |] 
我 们 知道 u 必须 满足 式 (4- (给 定 的 条 件 。 现在 ， 优 化 问题 归结 为 : 


Max Lo(u) = Xyu- eo Y uu DiDi O(a.) OCE) 
满足 


Sd = ULF = Ee.” 


( A-16) 
一 次 规划 问题 可 得 到 us， 


而 一 旦 得 到 这 个 值 ， i \ 式 给 出 : 
f(x) =sign(w ‘p(x) -y) =sign | Zup)" p(x) -y | 
y WÉ ATELA Eu, 40 的 点 而 求 得 。 


附录 B 图 划分 的 矩阵 形式 


假设 有 5 个 点 ， 并 且 其 相似 度 和 矩阵 WW 为 : 


1 Sin Siy Su S435 


W=|s S2 1 sh | ss 


—_ 


wn \551 | aa Ssh Shy 

TER, Hs, =s;。 假设 行 的 总 和 ( 列 的 总 和 ) 表 示 为 也 ;: 
Di =l Hsi tshs + Sie 

D=1 +1+ ss + $53 +54 + S95 


D; =1 +1 +ss +555 + S55 F Soy 


今 
D 0e Menara, § Same 8 
0° “De © CO 人 
Part C A eo 
OO 
a 9 0 0 D 
现在 ; 
D-W 
$12 十 $S13 十 S14 十 315 — Sip — $13 —Si4 — $45 
We S21 +553 十 S24 +55 — Sy —Sy — Sy. 
= 一 3 一 Sa S3 Sy 十 S34 十 335 一 334 一 335 
一 341 一 342 — $43 Sa Sa 十 343 + S45 — S45 
Z $51 一 352 — $53 — S54 S51 十 3S52 十 3S53 十 354 
l 
0 
假设 点 1、3、5 形成 组 4， 点 2、4 BMAP B, WAX =|1 上 是 一 个 表示 组 4 的 二 
; 0 
1 


{E ( binary) 向 量 。 


E R) > 9 FEET R | 305 
现在 ， 


0 Sy, Sap L Sy Shs 


$51 S32 Sai Sigg A 
=[ (1 +s; +55, )0(s,, +1 +553 )O(s\5 +535 +1) | 


] 

0 

XWX =[ (14s ss )0(s +1 +553 )O(si5 +5835 FIFILI 
0 

1 


= 组 群 4 中 元 素 间 的 权重 的 总 和 
如 果 我 们 将 点 1，3，5 分 到 一 组 ， 则 相应 的 子 矩 阵 如 下 : 


S S3 Sis 1 $13 $15 
W, =| 531 $33 $35 | 三 | $31 ] S35 
$5,  Ss3 $55 $5; $53 1 


可 以 看 到 ，W 中 的 元 素 总 和 为 站 WX。 类 似 地 : 
© Soo S24 < l os 
pA Poon 1 | 
可 以 看 到 了 WX =1+s +1+s = W 中 的 元 素 总 和 。 


现在 我 们 对 (D - W) X RGF 
xX’ (D-W) =[1010.1] 


512 + S13 Sig + S45 — $42 7 $43 — S14 $15 
— $91 321 +573 + 3S24 + S95 一 $93. 一 324 TS25 
— $3) Sag heme S31 + 532 + 534 十 335 — $34 — $35 
一 341 — $42 一 $43 $41 +849 + $43 + S45 Wr eS 45 
Z $51 pe — $53 = $54 S51 十 3S52 + S53 + S54 


= [ (Siz #814), (si +832 — 8) (ss +54) — (514 + Sag +854) S52 Hss) | 
1 
0 
X"(D-W)X [ (51. +514) — (s — 832 — S52) (S32 +534) — (sm + Sag + S54) (Ss +554) | | 1 
0 
1 


= (Sip +544) + (S32 + S34) + (S52 + S54 ) 
= 组 4 和 组 B 间 边 的 权重 的 总 和 。 
这 一 点 可 以 通过 下 面 表示 组 4 中 节点 和 B 中 节点 之 间 权 重 的 子 矩 阵 来 看 到 。Y (D -W) 
Y 即 为 该 总 和 ， 因 为 sy = sjo 
1\{ 5i2 Su 
(2 4)|3 || 53, S34 


3 Ss2 S54 


